Περίληψη
Στη μακροαυτοφαγία (ή απλά αυτοφαγία), αρκετές πρωτεΐνες αλληλεπιδρούν με πρωτεΐνες της οικογένειας ATG8 μέσω μικρών γραμμικών μοτίβων, που αναφέρονται στη βιβλιογραφία ως ATG8-family interacting motifs (AIMs) ή LC3-interacting regions (LIRs). Οι ερευνητικές εργασίες που μελετούν τα μοτίβα AIM/LIR αυξάνονται με μεγάλο ρυθμό και αυτές οι δημοσιεύσεις δίνουν σημαντικές πληροφορίες για τη μακροαυτοφαγία στα ευκαρυωτικά κύτταρα. Στις ATG8 η περιοχή αλληλεπίδρασης LIR (LIR docking site - LDS) αποτελείται από δύο υδροφοβικές κοιλότητες (pockets - HP1 και HP2). Στις πρωτεΐνες εντοπίζεται ένας μεγάλος αριθμός πιθανών LIR μοτίβων λόγω του μικρού μεγέθους των μοτίβων που ακολουθούν την κανονική έκφραση [WFY]xx[VLI]. Το αρωματικό κατάλοιπο [WFY] προσδένει στην HP1 ενώ το διακλαδισμένης πλευρικής αλυσίδας αλειφατικό κατάλοιπο [VLI] στην HP2. Με τη χρήση διαφόρων εργαστηριακών πειραματικών μεθόδων έχουν εντοπιστεί μερικές δεκάδες λειτουργικά LIR μοτίβα τα οποία αλληλεπιδρούν με τα ομόλογα του ATG8 ...
Στη μακροαυτοφαγία (ή απλά αυτοφαγία), αρκετές πρωτεΐνες αλληλεπιδρούν με πρωτεΐνες της οικογένειας ATG8 μέσω μικρών γραμμικών μοτίβων, που αναφέρονται στη βιβλιογραφία ως ATG8-family interacting motifs (AIMs) ή LC3-interacting regions (LIRs). Οι ερευνητικές εργασίες που μελετούν τα μοτίβα AIM/LIR αυξάνονται με μεγάλο ρυθμό και αυτές οι δημοσιεύσεις δίνουν σημαντικές πληροφορίες για τη μακροαυτοφαγία στα ευκαρυωτικά κύτταρα. Στις ATG8 η περιοχή αλληλεπίδρασης LIR (LIR docking site - LDS) αποτελείται από δύο υδροφοβικές κοιλότητες (pockets - HP1 και HP2). Στις πρωτεΐνες εντοπίζεται ένας μεγάλος αριθμός πιθανών LIR μοτίβων λόγω του μικρού μεγέθους των μοτίβων που ακολουθούν την κανονική έκφραση [WFY]xx[VLI]. Το αρωματικό κατάλοιπο [WFY] προσδένει στην HP1 ενώ το διακλαδισμένης πλευρικής αλυσίδας αλειφατικό κατάλοιπο [VLI] στην HP2. Με τη χρήση διαφόρων εργαστηριακών πειραματικών μεθόδων έχουν εντοπιστεί μερικές δεκάδες λειτουργικά LIR μοτίβα τα οποία αλληλεπιδρούν με τα ομόλογα του ATG8 σε διάφορους οργανισμούς. Οι in silico μεθοδολογίες αναγνώρισης LIR μοτίβων που είναι μέχρι σήμερα διαθέσιμες, βοηθούν στον εντοπισμό πιθανών LIR μοτίβων για πειραματική επιβεβαίωση στο εργαστήριο. Παρόλα αυτά, δίνουν σημαντικό αριθμό ψευδώς θετικών προβλέψεων. Για την ανάπτυξη προηγμένων υπολογιστικών εργαλείων που θα βοηθήσουν στην καλύτερη κατανόηση και να μπορούν να καθοδηγήσουν την πειραματική μελέτη της επιλεκτικής αυτοφαγίας είναι αναγκαία η καταγραφή και διάθεση υψηλής ποιότητας δεδομένων σχετικών με τα LIR μοτίβα και την αλληλεπίδραση τους με τα ομόλογα του ATG8. Δημιουργήσαμε το πρόγραμμα λογισμικού “LIR-miner” που εφαρμόζει ευρετικές μεθόδους ανάλυσης κειμένου και το οποίο μπορεί να εντοπίζει μέσα σε κείμενα σημεία που αναφέρονται σε LIR μοτίβα. Αναζητώντας στην PubMed Central με τη λέξη-κλειδή “autophagy” εντοπίστηκαν 78798 δημοσιεύσεις ελεύθερης πρόσβασης στο πλήρες κείμενο τους και αναλύθηκαν με το πρόγραμμα “LIR-miner” για τον εντοπισμό σε αυτές πειραματικά επιβεβαιωμένων LIR μοτίβων. Χρησιμοποιώντας το “LIR-miner”, άμεση αναζήτηση στην PubMed, αντίστροφη αναζήτηση από δημοσιεύσεις που αναφέρονται σε γνωστά LIR μοτίβα και εργαλεία/βάσεις δεδομένων πρόβλεψης LIR μοτίβων εντοπίστηκαν συνολικά 159 επιστημονικές δημοσιεύσεις με πειράματα επιβεβαίωσης σχετικών μοτίβων. Από αυτές ανακτήθηκαν 292 εγγραφές με LIR μοτίβα. Για 9 από αυτά δεν υπάρχει επαρκής τεκμηρίωση για πειραματική επιβεβαίωση της αλληλεπίδρασης των μοτίβων αυτών με τα ομόλογα του ATG8. Τα 82 αφορούν πειραματικά επιβεβαιωμένα μη λειτουργικά μοτίβα, 189 αφορούν πειραματικά επιβεβαιωμένα λειτουργικά μοτίβα, 6 από αυτά αφορούν υπό προυποθέσεις λειτουργικά μοτίβα (Conditionally functional) και άλλα 6 “Accessory LIR”. Δημιουργήθηκε μια βάση δεδομένων στην οποία καταχωρήθηκαν τα παραπάνω δεδομένα. Ταυτόχρονα δημιουργήθηκε η LIRcentral, ένα διαδικτυακό αποθετήριο πειραματικά επιβεβαιωμένων LIR μοτίβων εμπλουτίζοντας το με δεδομένα από έγκυρες διεθνείς βάσεις δεδομένων. Η LIRcentral διατίθεται δωρεάν και είναι ανοιχτή προς το κοινό.Έχει παρατηρηθεί ότι εκτός από το LIR μοτίβο, στην αλληλεπίδραση της πρωτεΐνης με το ATG8, συμβάλλουν και τα αμινοξέα που βρίσκονται στην περιοχή γύρω από το LIR μοτίβο. Πριν από μερικά χρόνια, είχε προταθεί το PSSM score του LIR μοτίβου μαζί με τα δύο αμινοξέα που προηγούνται του μοτίβου ως ένας καλός δείκτης για εντοπισμό των λειτουργικών μοτίβων. Το PSSM μπορεί να περιγράψει τα δομικά/φυσικοχημικά χαρακτηριστικά στις περιοχές upstream και downstream ενός πιθανού LIR μοτίβου. Έγιναν πειράματα για να εντοπιστούν οι βέλτιστες περιοχές upstream και downstream του μοτίβου που περιέχουν χρήσιμες πληροφορίες για τη διάκριση λειτουργικών και μη-λειτουργικών μοτίβων. Χρησιμοποιήθηκε το λογισμικό PSSMsearch για τον υπολογισμό των PSSMs επιλέγοντας διάφορες από τις προσφερόμενες ρυθμίσεις. Τα αποτελέσματα διάκρισης για όλους τους δυνατούς συνδυασμούς μηκών των upstream και downstream περιοχών στο εύρος [0,29] στη συνέχεια επιβεβαιώθηκαν με cross-validation. Εντοπίστηκε ότι η βέλτιστη επιλογή για τον χαρακτηρισμό ενός λειτουργικού LIR μοτίβου είναι χρησιμοποιώντας τα PSSMs για 25 αμινοξέα upstream, το LIR μοτίβο και 25 αμινοξέα downstream. Δημιουργήθηκε ένας πίνακας PSSM χρησιμοποιώντας τα λειτουργικά μοτίβα και ένας πίνακας PSSM χρησιμοποιώντας τα μη λειτουργικά μοτίβα. Για κάθε γνωστό μοτίβο (λειτουργικό ή μη λειτουργικό) υπολογίστικαν δύο scores, ένα score με βάση τον πίνακα των λειτουργικών μοτίβων και ένα score με βάση τον πίνακα των μη λειτουργικών μοτίβων. Τα scores υπολογίστηκαν αθροίζοντας τις τιμές των θέσεων 25 καταλοίπων upstream του μοτίβου, τεσσάρων καταλοίπων του LIR μοτίβου και 22 καταλοίπων downstream του LIR μοτίβου. Η σύγκριση των δύο scores έδειξε ότι στα λειτουργικά μοτίβα το score που προέρχεται από τον πίνακα PSSM των λειτουργικών μοτίβων τείνει να είναι μεγαλύτερο από το score που προέρχεται από τον πίνακα PSSM των μη λειτουργικών μοτίβων. Στα μη λειτουργικά μοτίβα, το score που προέρχεται από τον πίνακα PSSM των μη λειτουργικών μοτίβων τείνει να είναι μεγαλύτερο σε σχέση με το score που προέρχεται από τον πίνακα PSSM των λειτουργικών μοτίβων. Παρατηρήθηκε ακόμα ότι μασκάροντας το αρωματικό και το αλειφατικό κατάλοιπο του LIR μοτίβου και υπολογίζοντας ξανά τα scores, τα αποτελέσματα βελτιώνονται. Το παραπάνω αποτέλεσμα μπορεί να βοηθήσει τους ερευνητές στον εντοπισμό νέων πιθανών λειτουργικών μοτίβων. Ο ερευνητής ενδιαφέρεται να γνωρίζει το πιθανό λειτουργικό μοτίβο σε μια πρωτεΐνη για να το εξετάσει πειραματικά στο εργαστήριο. Για να δοθεί η πληροφορία αυτή ορίστηκε ως παράθυρο 51ος αμινοξέων η περιοχή upstream+LIR+downstream (25+4+22=51) και με αυτό σκανάρεται όλη η αλληλουχία της πρωτεΐνης μετακινώντας το παράθυρο κατα ένα αμινοξύ κάθε φορά. Τα παράθυρα κάθε πρωτεΐνης κατατάσσονται σε σειρά από την υψηλότερη τιμή αθροίσματος PSSM των καταλοίπων μέχρι την χαμηλότερη τιμή. Το 51-πεπτίδιο που περιέχει το ισχυρό λειτουργικό μοτίβο της πρωτεΐνης αναμένεται να κατατάσσεται στην πρώτη θέση με το υψηλότερο score PSSM λειτουργικών μοτίβων ανάμεσα στα 51-πεπτίδια που ταιριάζουν στις θέσεις 26-29 με το μοτίβο [WFY]xx[VLI]. Αυτή η διαδικασία κωδικοποιήθηκε στο λογισμικό πρόβλεψης λειτουργικών LIR μοτίβων LIRfinder, το οποίο είναι ελεύθερα διαθέσιμο ως διαδικτυακή εφαρμογή: ο χρήστης μπορεί είτε να ανεβάσει ένα αρχείο το οποίο περιλαμβάνει μια πρωτεΐνη σε FASTA μορφή είτε να εισάγει μια πρωτεΐνη σε FASTA μορφή στο σχετικό “πλαίσιο κειμένου” και να υποβάλει το ερώτημα. Στην προσπάθειά μας να ελέγξουμε τη δυνατότητα των PSSMs να αναγνωρίσουν επιτυχημένα και τα Non-canonical μοτίβα, παρατηρήσαμε ότι αυτό δεν είναι δυνατόν, αφού μπορεί να απουσιάζει το αρωματικό ή το αλειφατικό κατάλοιπο. Παρόλα αυτά, με την προσθήκη ενός “εικονικού” καταλοίπου (Z) στη θέση του αρωματικού ή του αλειφατικού καταλοίπου μπορεί να δώσει καλά αποτελέσματα. Σε αυτό βοήθησε το μασκάρισμα του αρωματικού και του αλειφατικού καταλοίπου κατά τον υπολογισμό του score κάθε 51-πεπτιδίου αφού η προσθήκη ενός Z σε αυτή τη θέση δεν επηρεάζει το υπολογιζόμενο score του 51-πεπτιδίου. Αναλύθηκαν εκτενώς Non-canonical μοτίβα, λειτουργικά κανονικά μοτίβα τα οποία δεν εντοπίζονται από το μοντέλο πρόβλεψης, περιπτώσεις όπου το score του λειτουργικού μοτίβου είναι μικρότερο από το score μη πειραματικά επιβεβαιωμένου μοτίβου και αποτελέσματα πρόβλεψης στις αμινοτελικές και καρβοξυτελικές περιοχές των πρωτεϊνών. Ακολουθώντας την ίδια διαδικασία, ελέγχθηκαν πρωτεΐνες με πειραματικά επιβεβαιωμένα LIR μοτίβα που δεν περιέχονταν στο LIRcentral κατά τον χρόνο εξαγωγής των δεδομένων που χρησιμοποιήθηκαν στα πειράματα. Η παρούσα διατριβή οδήγησε (α) στην ανάπτυξη υπολογιστικών εργαλείων για την ημι-αυτοματοποιημένη διαλογή επιστημονικών δημοσιεύσεων που αφορούν τη μελέτη LIR μοτίβων, (β) στη μεθοδική καταγραφή δεδομένων πειραματικά ελεγμένων μοτίβων, (γ) στην δημιουργία της υπηρεσίας LIRcentral που παρέχει εύκολη πρόσβαση στα παραπάνω δεδομένα, και (δ) στην ανάπτυξη και αξιολόγηση της εφαρμογής LIRfinder που επιτυγχάνει βελτιωμένη πρόβλεψη λειτουργικών LIR μοτίβων. Με δεδομένο τον κεντρικό ρόλο των πρωτεϊνών της οικογένειας ATG8 στην αυτοφαγία και άλλες σχετικές κυτταρικές διεργασίες, είναι μεγάλο το ενδιαφέρον της ερευνητικής κοινότητας στη μελέτη των αλληλεπιδράσεών τους με άλλα πρωτεϊνικά μόρια τόσο σε φυσιολογικές συνθήκες όσο και σε συνθήκες που σχετίζονται με μορφές κυτταρικού στρες ή δυσλειτουργίες. Για το λόγο αυτό πιστεύουμε ότι τα παραπάνω αποτελέσματα θα αποδειχθούν πολύ χρήσιμα στην προσπάθεια για την καλύτερη κατανόηση των αλληλεπιδράσεων εκείνων οι οποίες συντελούνται με τη βοήθεια LIR μοτίβων.
περισσότερα
Περίληψη σε άλλη γλώσσα
In macroautophagy, several proteins interact with proteins of the ATG8 family through short linear motifs, mentioned in the literature as ATG8-family interacting motifs (AIMs) or LC3-interacting regions (LIRs). AIM/LIR motifs have been studied in a growing number of scientific papers in the last few years and these publications give significant information about macroautophagy in the eukaryotic cells. In ATG8, the LIR docking site (LDS) consists of two hydrophobic pockets (HP1 and HP2). A large number of potential LIR motifs are identified in proteins due to the small size of the motifs that follow the regular expression [WFY]xx[VLI]. The aromatic residue [WFY] binds to HP1 while the branched side chain aliphatic residue [VLI] binds to HP2. Using multiple experimental techniques, scientists have discovered several experimentally functional LIR motifs which interact with ATG8 homologs in multiple organisms. The available in silico LIR motif identification methodologies help to identify ...
In macroautophagy, several proteins interact with proteins of the ATG8 family through short linear motifs, mentioned in the literature as ATG8-family interacting motifs (AIMs) or LC3-interacting regions (LIRs). AIM/LIR motifs have been studied in a growing number of scientific papers in the last few years and these publications give significant information about macroautophagy in the eukaryotic cells. In ATG8, the LIR docking site (LDS) consists of two hydrophobic pockets (HP1 and HP2). A large number of potential LIR motifs are identified in proteins due to the small size of the motifs that follow the regular expression [WFY]xx[VLI]. The aromatic residue [WFY] binds to HP1 while the branched side chain aliphatic residue [VLI] binds to HP2. Using multiple experimental techniques, scientists have discovered several experimentally functional LIR motifs which interact with ATG8 homologs in multiple organisms. The available in silico LIR motif identification methodologies help to identify potential LIR motifs for experimental confirmation. Nevertheless, those methodologies give a significant number of false positive predictions. For the development of advanced computational tools which will contribute to the understanding and further experimental study of selective autophagy, the documentation and availability of data related with LIR motifs and the interaction with the ATG8 homologues are necessary.Using the Perl programming language the program “LIR-miner” was created. It uses text mining methods and it finds sentences and/or points referred to LIR motifs. Searching in PubMed Central using the keyword “autophagy”, 78798 open access publications were found. Those publications were analysed using the “LIR-miner” program to detect experimentally verified LIR-motifs. Using “LIR-miner”, direct search in PubMed, reverse search, i.e., papers citing key papers on LIR motifs or the software tools/databases for LIR motif prediction, 159 publications were found. In those publications 292 records with LIR-motifs were identified. For 9 of those motifs there is insufficient documentation for the experimental verification of the interaction of those motifs with the homologs of ATG8. The 82 motifs are experimentally verified non-functional motifs, 189 are experimentally verified functional motifs, 6 are Conditionally functional LIR-motifs and another 6 are Accessory LIR-motifs. A database was created and the data collected from the above process was added. At the same time, LIRcentral was created which is an online repository of experimentally verified LIR-motifs. LIRcentral is enriched with data from valid international databases. LIRcentral is freely available and open to the public. It is known that in addition to LIR-motif, the amino acids located in the region upstream or downstream of the LIR-motif also contribute to the interaction of the protein with ATG8. Some years ago, it was suggested that the PSSM score of the LIR-motif together with the two amino acids upstream of the motif can contribute to the identification of a functional LIR-motif. PSSM can describe structural/physicochemical characteristics upstream and downstream of a potential LIR-motif. Experiments were performed to identify the optimal upstream and downstream regions of the motif that contain useful information for distinguishing functional and non-functional motifs. The PSSMsearch software was used to calculate the PSSMs by choosing from several of the offered settings. The discrimination results for all possible combinations of upstream and downstream region lengths in the range [0,29] were then confirmed by cross-validation. It was found that the optimal choice for characterizing a functional LIR motif is using the PSSMs for 25 upstream amino acids, the LIR motif and 25 downstream amino acids. Two PSSM matrices were calculated. A PSSM matrix which uses all known functional LIR motifs and another PSSM matrix which uses all known non-functional motifs. For each known motif (functional or non-functional) two scores were calculated, a score based on the PSSM matrix of functional LIR-motifs and a score based on the PSSM matrix of the non-functional motifs. The scores were calculated summing the scores of the positions of 25 residues upstream the motif, four residues of the LIR-motif and 22 residues downstream the LIR-motif. The comparison of the two scores showed that for functional motifs, the score derived from the PSSM matrix of functional motifs tends to be greater than the score derived from the PSSM matrix of non-functional motifs. For non-functional motifs, the score derived from the PSSM matrix of non-functional motifs tends to be higher than the score derived from the PSSM matrix of functional motifs. It was also observed that the results improve by masking the aromatic and aliphatic residues of the LIR motif and recalculating the scores. The above result may help researchers to identify new potential functional LIR-motifs. A researcher wants to know the potential functional motif of a protein to validate it experimentally in the laboratory. To extract this information, a window of 51 amino acids was set which consist of the upstream+LIR+downstream (25+4+22=51) regions. Using this window, the amino acid sequence of a protein is scanned moving the window one amino acid each time. The windows of each protein are ranked in order starting from the higher score to the lower score. The 51-peptide containing the strong functional motif of the protein is expected to rank first with the highest PSSM functional motif score among the 51-peptides matching positions 26-29 with the motif [WFY]xx[VLI]. This procedure was encoded in the functional LIR motif prediction software LIRfinder, which is freely available as a web application: the user can either upload a file containing a protein in FASTA format or enter a protein in FASTA format in the relevant “text area” and submit the query.In our attempt to test the ability of PSSMs to successfully identify non-canonical motifs, we observed that this is not possible, since the aromatic or aliphatic residue may be absent. However, adding a “dummy” residue (Z) in place of the aromatic or aliphatic residue can give good results. This was helped by masking the aromatic and aliphatic residue when calculating the score of each 51-peptide since adding a Z at this position does not affect the calculated score of the 51-peptide. Extensive analysis was performed regarding (a) non-canonical motifs, (b) functional canonical motifs unidentified by the prediction model, (c) cases where the score of the functional motif is less than the score of a non-experimentally confirmed motif and (d) prediction results in the amino-terminal and carboxyl-terminal regions of proteins. Following the same procedure, proteins with experimentally verified LIR motifs, that were not contained in LIRcentral on the day of extraction of the data used in the experiments, were checked. This thesis led to (a) the development of computational tools for the semi-automated screening of scientific publications concerning the study of LIR motifs, (b) the methodical recording of experimentally verified motif data, (c) the creation of the LIRcentral service that provides easy access to the above data, and (d) the development and evaluation of the LIRfinder application that achieves improved prediction of functional LIR motifs. Given the central role of ATG8 family proteins in autophagy and other related cellular processes, there is great interest in the research community in studying their interactions with other protein molecules both in physiological conditions and in conditions related to forms of cellular stress or dysfunctions. For this reason, we believe that the above results will prove very useful in the effort to better understand the interactions that occur with the help of LIR motifs.
περισσότερα