Περίληψη
Σκοπός της παρούσας διατριβής ήταν η ανάπτυξη ενός αυτοματοποιημένου συστήματος βιοπληροφορικών αναλύσεων, το οποίο θα μπορούσε να διαχειριστεί και να αναλύσει μεταγενωμικά δεδομένα, με τελικό στόχο την εύρεση καινούριων ενζύμων βιοτεχνολογικού ενδιαφέροντος. Η διαδικασία σχεδιασμού του αυτοματοποιημένου συστήματος περιελάμβανε την αξιολόγηση πολυάριθμων βιοπληροφορικών εργαλείων μέσω της εφαρμογής τους σε πραγματικά μεταγενωμικά δεδομένα καθώς και την ανάπτυξη καινούριων αλγορίθμων που καλύπτουν τις αδυναμίες των ήδη υπαρχόντων. Η συλλογή των διαφορετικών εργαλείων και των νέων αλγορίθμων ενοποιήθηκε σε μία διαδικτυακή πλατφόρμα που κατασκευάστηκε με βάση το υπολογιστικό σύστημα Galaxy και ονομάστηκε ANASTASIA (Automated Nucleotide Aminoacid Sequences Translational plAtform for Systemic Interpretation and Analysis). Στην καινούρια πλατφόρμα το κάθε εργαλείο και αλγόριθμος γινόταν διαθέσιμο μέσω ενός φιλικού προς το χρήστη γραφικού περιβάλλοντος ενώ υπήρχε η δυνατότητα αυτοματοποίησης ...
Σκοπός της παρούσας διατριβής ήταν η ανάπτυξη ενός αυτοματοποιημένου συστήματος βιοπληροφορικών αναλύσεων, το οποίο θα μπορούσε να διαχειριστεί και να αναλύσει μεταγενωμικά δεδομένα, με τελικό στόχο την εύρεση καινούριων ενζύμων βιοτεχνολογικού ενδιαφέροντος. Η διαδικασία σχεδιασμού του αυτοματοποιημένου συστήματος περιελάμβανε την αξιολόγηση πολυάριθμων βιοπληροφορικών εργαλείων μέσω της εφαρμογής τους σε πραγματικά μεταγενωμικά δεδομένα καθώς και την ανάπτυξη καινούριων αλγορίθμων που καλύπτουν τις αδυναμίες των ήδη υπαρχόντων. Η συλλογή των διαφορετικών εργαλείων και των νέων αλγορίθμων ενοποιήθηκε σε μία διαδικτυακή πλατφόρμα που κατασκευάστηκε με βάση το υπολογιστικό σύστημα Galaxy και ονομάστηκε ANASTASIA (Automated Nucleotide Aminoacid Sequences Translational plAtform for Systemic Interpretation and Analysis). Στην καινούρια πλατφόρμα το κάθε εργαλείο και αλγόριθμος γινόταν διαθέσιμο μέσω ενός φιλικού προς το χρήστη γραφικού περιβάλλοντος ενώ υπήρχε η δυνατότητα αυτοματοποίησης των αναλύσεων που περιλάμβαναν πολλά διαδοχικά εργαλεία μέσα από βιοπληροφορικές γραμμές εργασιών (pipelines). Ο σχεδιασμός των αυτοματοποιημένων γραμμών εργασιών έγινε μέσω της εφαρμογής των ενσωματωμένων εργαλείων σε μεταγενωμικά δεδομένα που αποκτήθηκαν από δύο ερευνητικά προγράμματα: το HotZyme και το COVERALL. Το πρώτο πρόγραμμα είχε ως σκοπό την εύρεση καινούριων θερμοσταθερών ενζύμων μέσω ανάλυσης των μεταγονιδιωμάτων μικροβιακών πληθυσμών σε θερμές πηγές, ενώ το δεύτερο πραγματευόταν την εύρεση μικροβιακών ειδών και αλληλουχιών που θα μπορούσαν να συσχετιστούν ως βιοδείκτες με την έκθεση σε υψηλές συγκεντρώσεις CO2. Η βιοπληροφορική ανάλυση και στα δύο ερευνητικά προγράμματα ξεκίνησε από το επίπεδο των δεδομένων αλληλούχισης των μεταγονιδιωμάτων των αντίστοιχων δειγμάτων αλλά εξελίχθηκε σε δύο διαφορετικές μεθοδολογίες από τις οποίες προέκυψαν οι αντίστοιχες αυτοματοποιημένες γραμμές εργασιών. Η τελική έκδοση της πλατφόρμας με τα ενσωματωμένα εργαλεία και τις αντίστοιχες αυτοματοποιημένες γραμμές εργασιών έγινε στη συνέχεια διαθέσιμη διαδικτυακά αξιοποιώντας ένα διακομιστή που ανήκει στη σχολή Χημικών Μηχανικών ΕΜΠ στη διεύθυνση http://motherbox.chemeng.ntua.gr/anastasia_dev/.Από τα αποτελέσματα της ανάλυσης των δεδομένων του ερευνητικού προγράμματος HotZyme προέκυψε μία λίστα αλληλουχιών πιθανών ενζύμων με υδρολυτική δράση (αριθμός EC 3.-.-.-) η οποία εξετάστηκε περαιτέρω για την επιλογή των επικρατέστερων υποψηφίων για εργαστηριακή επιβεβαίωση. Κατά τη συγγραφή αυτής της διατριβής ήδη δύο από τις παραπάνω αλληλουχίες έχουν απομονωθεί στο εργαστήριο, έχουν εκφραστεί επιτυχώς, έχουν χαρακτηριστεί πλήρως ως προς την ενζυμική λειτουργία τους και έχουν καταγραφεί σε δημόσιες βάσεις δεδομένων (UniProt) ως καινούριες καταχωρήσεις, επιβεβαιώνοντας τις αρχικές μας προβλέψεις. Αντίστοιχα τα αποτελέσματα του ερευνητικού προγράμματος COVERALL αποκάλυψαν 23 διαφορετικά μικροβιακά είδη των οποίων η παρουσία φαίνεται να συνδέεται στενά με την έκθεση σε υψηλές συγκεντρώσεις CO2. Οι αντίστοιχες γονιδιακές τους αλληλουχίες έχουν ήδη απομονωθεί υπολογιστικά και ήδη λαμβάνει χώρα περαιτέρω ανάλυση για τον εντοπισμό χαρακτηριστικών αλληλουχιών που θα αποτελέσουν πιθανούς βιοδείκτες έκθεσης για το συγκεκριμένο ρύπο. Ο σχεδιασμός αυτής της πλατφόρμας, μέσα από τη συνεχή αλληλεπίδραση με πραγματικά μεταγενωμικά δεδομένα, βοήθησε εξαιρετικά στην αξιολόγηση των δυνατοτήτων της, αλλά και στην αναπροσαρμογή των αλγορίθμων της για τη βέλτιστη διαχείριση και ανάλυση των αντίστοιχων αρχείων. Έτσι το ουσιαστικό αποτέλεσμα αυτής της διατριβής δεν αποτελείται μόνο από τα συμπεράσματα των εκάστοτε αναλύσεων, αλλά σαφώς επίσης και από το εύχρηστο και διαρκώς εξελισσόμενο υπολογιστικό σύστημα που προέκυψε. Οι δυνατότητες αυτού του συστήματος ενώ έχουν αποδειχτεί για την περίπτωση μεταγονιδιωματικών δεδομένων μπορούν να επεκταθούν (και ήδη επεκτείνονται) περαιτέρω για όλους τους τομείς της Βιοτεχνολογίας και της Συνθετικής Βιολογίας.
περισσότερα
Περίληψη σε άλλη γλώσσα
Aim of this thesis was the development of an automated bioinformatic framework that could effectively handle and analyze metagenomic data with the final scope being the detection of novel enzymes of industrial interest. The design of the aforementioned framework comprised evaluating various open source bioinformatic tools via running multiple analyses in real metagenomic datasets, as well as developing new algorithms that could tackle any issues derived from these analyses. The selected tools and developed algorithms were integrated in a web-based platform which was developed by exploiting Galaxy's computational framework and was named ANASTASIA (Automated Nucleotide Aminoacid Sequences Translational plAtform for Systemic Interpretation and Analysis). This new platform offered a friendly graphic user interface for all tools incorporated in it, while enabling the automation of each analysis in which they were executed, through the use of appropriate computational pipelines. The design o ...
Aim of this thesis was the development of an automated bioinformatic framework that could effectively handle and analyze metagenomic data with the final scope being the detection of novel enzymes of industrial interest. The design of the aforementioned framework comprised evaluating various open source bioinformatic tools via running multiple analyses in real metagenomic datasets, as well as developing new algorithms that could tackle any issues derived from these analyses. The selected tools and developed algorithms were integrated in a web-based platform which was developed by exploiting Galaxy's computational framework and was named ANASTASIA (Automated Nucleotide Aminoacid Sequences Translational plAtform for Systemic Interpretation and Analysis). This new platform offered a friendly graphic user interface for all tools incorporated in it, while enabling the automation of each analysis in which they were executed, through the use of appropriate computational pipelines. The design of the computational pipelines was facilitated by using the integrated tools directly on real metagenomic datasets acquired from two research projects: HotZyme and COVERALL. HotZyme project aimed in discovering novel thermostable enzymes via metagenomic screening of environmental samples from terrestrial hot springs, while COVERALL focused on detecting the taxonomical and functional differences in metagenomic samples from seafloor sediments, that were exposed in high concentrations of CO2. The bioinformatic analysis in both projects was initiated at the level of metagenomic sequencing data, but was formed in two distinct methodologies of different analytical steps, which were later transformed into the corresponding automated bioinformatic pipelines. The final version of the platform, including the automated pipelines and the integrated tools they consist of, was rendered available online, by using a server owned by the school of Chemical Engineering in National Technical University of Athens, via the following URL: http://motherbox.chemeng.ntua.gr/anastasia_dev/.The results from HotZyme project consisted of a list of nucleotide sequences of putative hydrolytic activity (EC number: 3.-.-.-) which was further curated in order to select the most promising candidates for experimental validation. During the work for this thesis, two of those sequences were successfully isolated in the lab, expressed, fully annotated and registered in public databases (UniProt) as novel sequences, while confirming our initial prediction regarding their enzymatic activity. On COVERALL project, the utilization of ANASTASIA resulted in identifying 23 different species that were found present only during exposure to high concentrations of CO2. The corresponding genomic sequences were parsed and are already under way of further analysis for detecting distinctive biomarker sequences for exposure in that pollutant. Designing this platform through the constant interaction of real metagenomic data, was of utmost importance for evaluating its potential, as well as for readjusting its algorithms for further optimizing the handling and analyzing of the corresponding files. Thus, the significant outcome of this thesis does not consist solely of the analysis results for each project but also of the user friendly and constantly evolving computational framework that was developed. The potential of that framework has already been proven in the case of metagenomic data but can be further (and already is) expanding for all fields of Biotechnology, -omics technologies and Synthetic Biology.
περισσότερα