Περίληψη
Τα βακτηριακά μικρά RNA (sRNAs) είναι βασικοί ρυθμιστές της γονιδιακής έκφρασης στα βακτηριακά κύτταρα. Ρυθμίζουν την γονιδιακή έκφραση σε συνθήκες στρες του κυττάρου, στην παθογένεση αλλά και στην προσαρμογή του σε περιβαλλοντικές αλλαγές. Η ικανότητά τους να τροποποιούν στόχους αγγελιοφόρων RNA (mRNA) μέσω αλληλεπιδράσεων ζευγαρώματος βάσεων, τα έχει εδραιώσει ως κεντρικούς παράγοντες στη μετα-μεταγραφική ρύθμιση σε ένα ευρύ φάσμα προκαρυωτικών συστημάτων. Παρά την ταχεία πρόοδο στις τεχνολογίες αλληλούχισης επόμενης γενιάς RNA και τις πειραματικές μεθόδους όπως οι μέθοδοι RIL-seq, MAPS και CLASH, η πλήρης ταυτοποίηση και λειτουργική αξιολόγηση των αλληλεπιδράσεων sRNA mRNA παραμένει περιορισμένη λόγω κατακερματισμένων δεδομένων και υπολογιστικών προκλήσεων. Η παρούσα διατριβή παρουσιάζει μια προσέγγιση δύο επιπέδων για την ενίσχυση της κατανόησης και της πρόβλεψης των αλληλεπιδράσεων sRNA–mRNA στα βακτήρια. Αρχικά, παρουσιάζεται η βάση δεδομένων Agnodice, μια εκτενώς επιμελημένη και ...
Τα βακτηριακά μικρά RNA (sRNAs) είναι βασικοί ρυθμιστές της γονιδιακής έκφρασης στα βακτηριακά κύτταρα. Ρυθμίζουν την γονιδιακή έκφραση σε συνθήκες στρες του κυττάρου, στην παθογένεση αλλά και στην προσαρμογή του σε περιβαλλοντικές αλλαγές. Η ικανότητά τους να τροποποιούν στόχους αγγελιοφόρων RNA (mRNA) μέσω αλληλεπιδράσεων ζευγαρώματος βάσεων, τα έχει εδραιώσει ως κεντρικούς παράγοντες στη μετα-μεταγραφική ρύθμιση σε ένα ευρύ φάσμα προκαρυωτικών συστημάτων. Παρά την ταχεία πρόοδο στις τεχνολογίες αλληλούχισης επόμενης γενιάς RNA και τις πειραματικές μεθόδους όπως οι μέθοδοι RIL-seq, MAPS και CLASH, η πλήρης ταυτοποίηση και λειτουργική αξιολόγηση των αλληλεπιδράσεων sRNA mRNA παραμένει περιορισμένη λόγω κατακερματισμένων δεδομένων και υπολογιστικών προκλήσεων. Η παρούσα διατριβή παρουσιάζει μια προσέγγιση δύο επιπέδων για την ενίσχυση της κατανόησης και της πρόβλεψης των αλληλεπιδράσεων sRNA–mRNA στα βακτήρια. Αρχικά, παρουσιάζεται η βάση δεδομένων Agnodice, μια εκτενώς επιμελημένη και δημόσια προσβάσιμη βάση δεδομένων που συγκεντρώνει πάνω από 39.000 πειραματικά επιβεβαιωμένες αλληλεπιδράσεις sRNA–RNA από 45 βακτηριακά είδη. Η Agnodice ενσωματώνει δεδομένα από μελέτες χαμηλής και υψηλής απόδοσης, με πλούσια μεταδεδομένα και διασύνδεση με εξωτερικούς γονιδιωματικούς πόρους, επιτρέποντας προηγμένα ερωτήματα, οπτικοποίηση και εξερεύνηση δεδομένων. Αποτελεί τη μεγαλύτερη συλλογή του είδους της και αποτελεί ένα ουσιαστικό εργαλείο για ερευνητές που μελετούν τη ρύθμιση μέσω RNA. Χρησιμοποιώντας τη βάση δεδομένων Agnodice, αναπτύχθηκε ένα υπολογιστικό πλαίσιο μηχανικής μάθησης (ML) για την πρόβλεψη των αλληλεπιδράσεων sRNA–mRNA στα βακτήρια. Αξιοποιώντας ένα επιμελημένο σύνολο δεδομένων με πάνω από 30.000 ζεύγη αλληλεπιδράσεων —περίπου 10.000 θετικά και 20.000 αρνητικά— συγκεντρώθηκε ένα σύνολο βιολογικών και υπολογιστικών χαρακτηριστικών. Αυτά περιλαμβάνουν την ενέργεια δέσμευσης, τη προσβασιμότητα του σημείου σύνδεσης, τη δευτεροταγή δομή και τις πλήρους μήκους αλληλουχίες των sRNAs και των εκτεταμένων περιοχών mRNA γύρω από το κωδικόνιο έναρξης. Μέσω της συστηματικής αξιολόγησης πολλαπλών αλγορίθμων ML, όπως οι XGBoost, Random Forest και τα νευρωνικά δίκτυα, διαπιστώθηκε ότι τα μοντέλα που εκπαιδεύτηκαν μόνο σε χαρακτηριστικά αλληλουχίας sRNA και mRNA είχαν παρόμοια ή και καλύτερη απόδοση σε σχέση με μοντέλα που χρησιμοποιούν περισσότερα χαρακτηριστικά. Αυτό υποδηλώνει ότι τα ακατέργαστα δεδομένα αλληλουχίας μπορεί να ενσωματώνουν μοτίβα σχετιζόμενα με την αλληλεπίδραση τα οποία δεν εντοπίζονται από συμβατικά θερμοδυναμικά μοντέλα. Η σύγκριση του μοντέλου που δημιουργήθηκε με υπάρχοντα εργαλεία πρόβλεψης, όπως τα TargetRNA3 και IntaRNA2, έδειξε βελτιωμένη ακρίβεια πρόβλεψης και υψηλότερο ποσοστό θετικών αλληλεπιδράσεων. Αυτά τα ευρήματα ενισχύουν τη σημασία της αναπαράστασης των βακτηριακών sRNA-mRNA αλληλεπιδράσεων με βάση την πλήρη RNA αλληλουχία και υποστηρίζουν την υπόθεση ότι η πληροφορία σε επίπεδο αλληλουχίας ενδέχεται να κρύβει ανεκμετάλλευτο προβλεπτικό δυναμικό στη μοντελοποίηση τους. Συνολικά, η συμβολή αυτής της διατριβής, μέσω της βάση δεδομένων Agnodice και του ανεπτυγμένου πλαισίου μηχανικής μάθησης, προωθεί την υπολογιστική μελέτη της βακτηριακής μετα-μεταγραφικής ρύθμισης. Επιπλέον, θέτει τα θεμέλια για μελλοντικές ολοκληρωμένες προσεγγίσεις που θα συνδυάζουν πειραματικά δεδομένα, πληροφορία αλληλουχίας και μηχανική μάθηση για την αποκάλυψη σύνθετων ρυθμιστικών δικτύων σε μικροβιακά συστήματα.
περισσότερα
Περίληψη σε άλλη γλώσσα
Bacterial small RNAs (sRNAs) are key regulators of gene expression, particularly in stress response, pathogenesis, and adaptation to environmental changes. Their ability to modulate messenger RNA (mRNA) targets through base-pairing interactions has established them as central players in post-transcriptional regulation across a diverse set prokaryotic systems. Despite rapid advances in RNA sequencing technologies and experimental methodologies such as RIL-seq, MAPS, and CLASH, the comprehensive identification and functional annotation of sRNA–mRNA interactions remain limited by data fragmentation and computational challenges. This thesis presents a two-pronged approach to enhance the understanding and prediction of bacterial sRNA–mRNA interactions. First, Agnodice is introduced, a curated and publicly accessible database that compiles over 39,000 experimentally supported sRNA–RNA interactionsfrom 45 bacterial species. Agnodice integrates data from both low- and high-throughput studies, ...
Bacterial small RNAs (sRNAs) are key regulators of gene expression, particularly in stress response, pathogenesis, and adaptation to environmental changes. Their ability to modulate messenger RNA (mRNA) targets through base-pairing interactions has established them as central players in post-transcriptional regulation across a diverse set prokaryotic systems. Despite rapid advances in RNA sequencing technologies and experimental methodologies such as RIL-seq, MAPS, and CLASH, the comprehensive identification and functional annotation of sRNA–mRNA interactions remain limited by data fragmentation and computational challenges. This thesis presents a two-pronged approach to enhance the understanding and prediction of bacterial sRNA–mRNA interactions. First, Agnodice is introduced, a curated and publicly accessible database that compiles over 39,000 experimentally supported sRNA–RNA interactionsfrom 45 bacterial species. Agnodice integrates data from both low- and high-throughput studies, with rich metadata and cross-referencing to external genomic resources, enabling advanced querying, visualization, and data exploration. It stands as the most extensive collection of its kind and provides an essential tool for researchers investigating RNA-mediated regulation. Building upon the Agnodice resource, a machine learning (ML) framework was developed to predict sRNA–mRNA interactions. Leveraging a curated dataset of over 30,000 interaction pairs, comprising ~10,000 positives and ~20,000 negatives, allowed the compilation of a set of biological and computational features. These included binding energy, site accessibility, secondary structure, and full-length sequences of sRNAs and extended mRNA regions flanking the start codon. Through systematic evaluation of multiple ML algorithms, such as XGBoost, Random Forest, and neural network architectures, it was shown that models trained on sRNA and mRNA sequence features alone performed comparably or better than models using expanded feature sets. This suggests that raw sequence data may encode interaction-relevant patterns not captured by conventional thermodynamic models. Benchmarking of the newfound model against state-of-the-art prediction tools such as TargetRNA3 and IntaRNA2 demonstrated improved predictive accuracy and a higher proportion of correctly ranked interactions. These findings reinforce the value of full-sequence-based feature representation and support the hypothesis that sequence-level information may hold underutilized predictive potential in RNA interaction modeling. Collectively, the contributions of this thesis, through Agnodice and the developed ML framework, advance the computational study of bacterial post-transcriptional regulation. They also lay a foundation for future integrative approaches that combine experimental data, sequence information, and machine learning to unravel complex regulatory networks in microbial systems.
περισσότερα