Περίληψη
Η παρούσα διατριβή συμβάλλει στην ανάπτυξη ενός ολοκληρωμένου υπολογιστικού συστήματος για τη γονιδιωματική μικροοργανισμών και την ερμηνεία της αντιμικροβιακής αντοχής (AMR), συνδυάζοντας στρατηγικές μηχανικής μάθησης, ανάπτυξη βιοπληροφορικών εργαλείων και κλινική εφαρμογή, ώστε να αντιμετωπιστούν σημαντικές προκλήσεις της επιστήμης του ανθρώπινου μικροβιώματος, της διάγνωσης λοιμώξεων και της επιδημιολογικής επιτήρησης. Μέσω της ανάπτυξης νέων αλγορίθμων και αναλυτικών ροών, η συγκεκριμένη διατριβή αναπτύσει αξιόπιστες υπολογιστικές μεθόδους για την αποκάλυψη μικροβιακών υπογραφών στους ανθρώπινους ιστούς, τον καθορισμό μηχανισμών δράσης μικροβιακής ανθεκτικότητας και την πρόβλεψη φαινοτύπων αντοχής.Το πρώτο μέρος της διατριβής αξιοποιεί μεθοδολογίες μηχανικής μάθησης για την αναγνώριση μικροβιακών υπογραφών σε υγιείς ανθρώπινους ιστούς, αμφισβητώντας την παραδοσιακή αντίληψη περί στειρότητας των οργάνων. Η ανάλυση 13.871 δειγμάτων RNA-seq από 28 ιστούς του προγράμματος GTEx, που επ ...
Η παρούσα διατριβή συμβάλλει στην ανάπτυξη ενός ολοκληρωμένου υπολογιστικού συστήματος για τη γονιδιωματική μικροοργανισμών και την ερμηνεία της αντιμικροβιακής αντοχής (AMR), συνδυάζοντας στρατηγικές μηχανικής μάθησης, ανάπτυξη βιοπληροφορικών εργαλείων και κλινική εφαρμογή, ώστε να αντιμετωπιστούν σημαντικές προκλήσεις της επιστήμης του ανθρώπινου μικροβιώματος, της διάγνωσης λοιμώξεων και της επιδημιολογικής επιτήρησης. Μέσω της ανάπτυξης νέων αλγορίθμων και αναλυτικών ροών, η συγκεκριμένη διατριβή αναπτύσει αξιόπιστες υπολογιστικές μεθόδους για την αποκάλυψη μικροβιακών υπογραφών στους ανθρώπινους ιστούς, τον καθορισμό μηχανισμών δράσης μικροβιακής ανθεκτικότητας και την πρόβλεψη φαινοτύπων αντοχής.Το πρώτο μέρος της διατριβής αξιοποιεί μεθοδολογίες μηχανικής μάθησης για την αναγνώριση μικροβιακών υπογραφών σε υγιείς ανθρώπινους ιστούς, αμφισβητώντας την παραδοσιακή αντίληψη περί στειρότητας των οργάνων. Η ανάλυση 13.871 δειγμάτων RNA-seq από 28 ιστούς του προγράμματος GTEx, που επεξεργάστηκαν με το εργαλείο AGAMEMNON για μικροβιακή ποσοτικοποίηση, αποκάλυψε ιστικο-ειδικές μικροβιακές υπογραφές σε οκτώ ιστούς, ανθεκτικές σε in silico επιμόλυνση μέσω μοντέλων μηχανικής μάθησης gradient boosting. Η ανάλυση επιβεβαίωσε τη σταθερότητα των ευρημάτων έναντι πιθανών πηγών επιμόλυνσης, ενώ ανεξάρτητη επικύρωση σε δείγματα ζώντων ιστών επιβεβαίωσε ότι η καρδιά, το ήπαρ και το παχύ έντερο διαθέτουν συγκεκριμένα μικροβιώματα χαμηλής βιομάζας, με χαρακτηριστικά μικρόβια όπως το Sporisorium graminicola στον καρδιακό ιστό, το Bartonella machadoae στο ήπαρ και το Flavonifractor plautii στο παχύ έντερο. Τα ευρήματα αυτά υποδεικνύουν μη τυχαία κατανομή μικροβιακής παρουσίας και αμφισβητούν την επικρατούσα άποψη περί στειρότητας των ιστών. Το δεύτερο μέρος επικεντρώνεται στην εκπαίδευση μοντέλων μηχανικής μάθησης για την πρόβλεψη φαινοτύπων αντοχής από γονιδιωματικά δεδομένα ESKAPEE παθογόνων (Enterococcus faecium, Staphylococcus aureus, Klebsiella pneumoniae, Acinetobacter baumannii, Pseudomonas aeruginosa και Enterobacter spp.), που ευθύνονται για σοβαρές νοσοκομειακές λοιμώξεις και αποτελούν παγκόσμια απειλή λόγω της ικανότητάς τους να διαφεύγουν από κοινώς χρησιμοποιούμενα αντιβιοτικά. Με βάση ένα σύνολο 18.916 γονιδιωμάτων και 40 αντιβιογραμμάτων, η χρήση κωδικοποίσης με βάση k-mers από γνωστά γονίδια AMR, ρυθμιστικές περιοχές και ριβοσωμικά RNA γονίδια, επέτρεψε στα μοντέλα Random Forest και XGBoost να επιτύχουν δείκτες recall και F1-score άνω του 90% για την πλειονότητα των αντιβιοτικών, υπερβαίνοντας την απόδοση προηγούμενων εργαλείων. Η ανάλυση των τιμών SHAP παρείχε ερμηνεύσιμες πληροφορίες για τα γονιδιωματικά χαρακτηριστικά που καθορίζουν την αντοχή, ενώ η κλινική επικύρωση σε 36 θετικά δείγματα αιμοκαλλιεργειών έδειξε τη δυνατότητα ταχείας παραγωγής in silico αντιβιογράμματος εντός 24–48 ωρών, σημαντικά ταχύτερα από τις συμβατικές μεθόδους καλλιέργειας. Το τρίτο μέρος παρουσιάζει το AmrProfiler, ένα ολοκληρωμένο διαδικτυακό εργαλείο για τον εντοπισμό γονιδίων αντιμικροβιακής ανθεκτικότητας, σημειακών μεταλλάξεων και παραλλαγών στα ριβοσωμικά RNA σε 18.000 βακτηριακά είδη. Μέσω συνδυασμού δεδομένων από αξιόπιστες βάσεις (CARD, ResFinder, Reference Gene Catalog), το AmrProfiler παρέχει μια ολοκληρωμένη πλατφόρμα ανάλυσης μικροβιακών γονιδιωμάτων, εντοπίζοντας γονίδια αντοχής, μεταλλάξεις σε βασικά γονίδια και για πρώτη φορά συστηματικά μεταλλάξεις σε rRNA γονίδια, με δυνατότητα ρύθμισης ορίων ευαισθησίας από τον χρήστη. Αποτελείται από τρεις εξειδικευμένες ενότητες —ανιχνευθέντα γονίδια μικροβιακής ανθεκτικότητας, μεταλλάξεις βασικών γονιδίων και ανάλυση rRNA γονιδίων— προσφέροντας πρωτοφανές βάθος στη χαρτογράφηση της αντοχής. Η αξιολόγησή του σε 5 βακτηριακά γονιδιώματα επιβεβαίωσε την υπεροχή του έναντι υπαρχόντων εργαλείων (ResFinder, CARD, AmrFinderPlus), εντοπίζοντας όλους τους γνωστούς δείκτες αντοχής και επιπλέον μηχανισμούς που δεν αναγνωρίζονται από άλλα εργαλεία. Τέλος, η εύχρηστη διεπαφή του καθιστά δυνατή τη χρήση του από μικροβιολόγους χωρίς εξειδικευμένες γνώσεις βιοπληροφορικής. Συνολικά, η διατριβή αυτή συμβάλλει καθοριστικά στην υπολογιστική μικροβιολογία, αποκαλύπτοντας νέα δεδομένα για τα μικροβιώματα των ανθρώπινων ιστών, παρέχοντας αξιόπιστα εργαλεία για τον χαρακτηρισμό της μικροβιακής ανθεκτικότητας και αποδεικνύοντας τη σημασία της πρόβλεψης φαινοτύπων αντοχής μέσω μηχανικής μάθησης. Οι υπολογιστικές ροές, από την ερμηνεία μεταγραφομικών δεδομένων και τη δημιουργία βάσεων έως την εκπαίδευση και κλινική επικύρωση μοντέλων, προσφέρουν αναπαραγώγιμες πλατφόρμες για έρευνα του ανθρώπινου μικροβιώματος, επιτήρηση της μικροβιακής αντοχής και εξατομικευμένη διάγνωση, αποτελώντας σημαντική υποδομή για την κατανόηση των μικροβιακών κοινοτήτων και τη λήψη αποφάσεων βασισμένων σε δεδομένα.
περισσότερα
Περίληψη σε άλλη γλώσσα
This dissertation contributes a complete computational system of microbial genomics and antimicrobial resistance (AMR) interpretation that brings together machine learning strategies, bioinformatics tool engineering, and clinical use to overcome significant challenges of human microbiome science, infectious disease diagnosis, and public health monitoring. Using new algorithm and analytical pipeline development, it identifies sound computational methods of uncovering microbial footprints of human health, defining AMR mechanisms of action, and predicting resistance phenotypes. The first component of this thesis employs machine learning methodology to identify microbial signatures within healthy human tissues and therefore challenged conventional notion about the sterility of human organs. Analysis of 13,871 RNA-seq samples from 28 tissues within the GTEx consortium, processed using AGAMEMNON for metatracnscriptomics quantification, revealed tissue-specific microbial signatures within eig ...
This dissertation contributes a complete computational system of microbial genomics and antimicrobial resistance (AMR) interpretation that brings together machine learning strategies, bioinformatics tool engineering, and clinical use to overcome significant challenges of human microbiome science, infectious disease diagnosis, and public health monitoring. Using new algorithm and analytical pipeline development, it identifies sound computational methods of uncovering microbial footprints of human health, defining AMR mechanisms of action, and predicting resistance phenotypes. The first component of this thesis employs machine learning methodology to identify microbial signatures within healthy human tissues and therefore challenged conventional notion about the sterility of human organs. Analysis of 13,871 RNA-seq samples from 28 tissues within the GTEx consortium, processed using AGAMEMNON for metatracnscriptomics quantification, revealed tissue-specific microbial signatures within eight tissues that are resilient to in silico contamination using gradient boosting models. In silico contamination analysis validated the robustness of the identified signatures against diverse possible sources of contamination. Independent validation using samples of living tissues confirmed that the heart, colon, and liver have unique low-biomass microbiomes with prominent signatures like Sporisorium graminicola within cardiac tissue, the gram-negative bacterium Bartonella machadoae within liver tissue, and Flavonifractor plautii within colon tissue. These results suggest non-random distributions of microbial colonization and challenge widely held assumptions about tissue sterility. The second component centers on training machine learning models designed to predict antimicrobial resistance phenotypes from genomic data of ESKAPEE pathogens. ESKAPE pathogens (Enterococcus faecium, Staphylococcus aureus, Klebsiella pneumoniae, Acinetobacter baumannii, Pseudomonas aeruginosa, and Enterobacter spp.), are known culprits of life-threatening hospital-acquired infections and are a global health concern because of their ability to evade widely used antibiotics. By using a carefully curated dataset of 18,916 genome assemblies and corresponding antibiograms of 40 antibiotics, the use of k-mer-based feature engineering for all known AMR genes, their upstream promoters, and rRNA sequences allowed the Random Forest and XGBoost classifiers to attain recall and F1-scores of higher than 90% on the vast majority of antibiotics. These models performed higher performance than rule-based tools, which predict the phenotype by only identifying AMR genes or point mutations. Further, SHAP analysis made interpretable observations on the genomic features underlying resistance calls. Clinical validation by metagenomic sequencing of 36 positive for bacteria, blood culture samples demonstrated rapid in silico antibiogram generation within 24-48 hours using the created models, substantially faster than the performance of conventional culture-based approaches. The third component of this thesis introduces AmrProfiler, a comprehensive web tool developed to identify antimicrobial resistance (AMR) genes, point mutations and ribosomal RNA gene variations within nearly 18,000 species of bacteria. Through data aggregation and complementation of information from authenticated databases (CARD, ResFinder, Reference Gene Catalog), AmrProfiler produces a holistic web tool for studying antimicrobial resistance, by identifying AMR genes, mutations in core genes that are associated with resistance and the first systematic investigation of rRNA gene mutations, enabling complete identification of resistance determinants with user-specifiable thresholds. It is made up of three expert modules—the acquired AMR genes, core gene mutations and rRNA gene analysis—which yield unprecedented depth within the delineation of AMR. Testing against a series of ESKAPEE pathogens assemblies verified its unparalleled effectiveness when compared with available tools (such as Resfinder, Card and AmrFinderPlus) correctly identifying all previously known resistance markers and detecting other mechanisms not recognized by tools currently available. Lastly, its intuitive easy-to-use interface make available for microbiologists without a deep knowledge of bioinformatics, an in depth AMR analysis.Collectively, this dissertation contributes to the science of computational microbiology by revealing new insights of human tissue microbiomes, providing valid tools of AMR characterization, and demonstrating the clinical significance of genomics-based resistance machine learning prediction. The integrated computational workflows herein, from metatranscriptomics interpretation and curation of databases to construction of machine learning models and clinical validation—offer reproducible platforms of microbiome research, AMR surveillance, and precision diagnosis. This thesis brings essential computational infrastructure toward understanding microbial communities and data-driven therapeutic decision-making.
περισσότερα