Περίληψη
Η κυτταρική δέσμευση και διαφοροποίηση πολυκύτταρων οργανισμών εξαρτάται από την παράλληλη δράση μεταγραφικών παραγόντων και επιγενετικών τροποποιήσεων που ρυθμίζουν διαφορετικά πρότυπα γονιδιακής έκφρασης. Η κατανόηση αυτών των μοριακών ρυθμιστικών μηχανισμών διευκολύνθηκε ραγδαία τα τελευταία χρόνια από την εδραίωση τεχνολογιών που βασίζονται στο next generation sequencing (NGS). Η αποκρυπτογράφηση τους και η εξαγωγή βιολογικής πληροφορίας αποτελεί μεγάλη πρόκληση στην εφαρμογή των NGS τεχνολογιών στη γονιδιακή ρύθμιση.Το πρωτέυων ερευνητικό μας αντικείμενο είναι η διαλέυκανση των μεταγραφικών ρυθμιστικών πράξεων υποκείμενες την αιμοποίηση και, πιο συγκεκριμένα, την ερυθροποίηση. Με αυτό το σκοπό, αναπτύξαμε μια υπολογιστική προσέγγιση για την ολοκληρωμένη ανάλυση μεγάλου αριθμού NGS δεδομένων, όπως πρόσδεση μεταγραφικών παραγόντων και επιγενετικών τροποποιήσεων, κατά την αιμοποίηση. Η υπολογιστική προσέγγιση που προτείνουμε βασίζεται στο συνδυασμό χρήσης εποπτευόμενων (Random Forest ...
Η κυτταρική δέσμευση και διαφοροποίηση πολυκύτταρων οργανισμών εξαρτάται από την παράλληλη δράση μεταγραφικών παραγόντων και επιγενετικών τροποποιήσεων που ρυθμίζουν διαφορετικά πρότυπα γονιδιακής έκφρασης. Η κατανόηση αυτών των μοριακών ρυθμιστικών μηχανισμών διευκολύνθηκε ραγδαία τα τελευταία χρόνια από την εδραίωση τεχνολογιών που βασίζονται στο next generation sequencing (NGS). Η αποκρυπτογράφηση τους και η εξαγωγή βιολογικής πληροφορίας αποτελεί μεγάλη πρόκληση στην εφαρμογή των NGS τεχνολογιών στη γονιδιακή ρύθμιση.Το πρωτέυων ερευνητικό μας αντικείμενο είναι η διαλέυκανση των μεταγραφικών ρυθμιστικών πράξεων υποκείμενες την αιμοποίηση και, πιο συγκεκριμένα, την ερυθροποίηση. Με αυτό το σκοπό, αναπτύξαμε μια υπολογιστική προσέγγιση για την ολοκληρωμένη ανάλυση μεγάλου αριθμού NGS δεδομένων, όπως πρόσδεση μεταγραφικών παραγόντων και επιγενετικών τροποποιήσεων, κατά την αιμοποίηση. Η υπολογιστική προσέγγιση που προτείνουμε βασίζεται στο συνδυασμό χρήσης εποπτευόμενων (Random Forest regression) και μη εποπτευόμενων (hierarchical clustering) αλγοριθμικών μηχανών μάθησης (machine learning) με στόχο την παραγωγή δομημένων προτύπων κατανομών επιγενετικών χαρακτηριστικών σε διφορετικούς αιμοποιητικούς κυτταρικούς πλυθησμούς.Κατ'αρχήν εφαρμόσαμε αυτή την υπολογιστική προσέγγιση ώστε να χαρακτηρίσουμε την γονιδιωματική κατανομή πρόσδεσης του ερυθροειδικού μεταγραφικού παράγοντα GATA1 κατά την διαφοροποίηση της ερυθρής κυτταρικής σειράς σε εμβρυικό ήπαρ ποντικού (Papadopoulos et al, 2013). Με βάση τα αποτελέσματα κατατάξαμε του γονιδιακούς στόχους του GATA1 σε τρία ξεχωριστά clusters, το καθένα με διαφορετικά επιγενετικά και λειτουργικά χαρακτηρηστικά, το οποίο υποδηλώνει την ύπαρξη διαφορετικών ρυθμιστικών μηχανισμών σχετιζόμενων με τον GATA1. Κατόπιν, εφαρμόσαμε την υπολογιστική μας προσέγγιση στην ανάλυση διαφορικών μεταγραφικών και επιγενετικών προτύπων κατά την δέσμευση των ερυθροειδικών και μεγακαρυωτικών κυτταρικών πλυθησμών. Αναγνωρίσαμε μια μεγάλη ομάδα γονιδίων (~1000) που παρουσιάζει ενεργά επιγενετικά χαρακτηριστηκά σε επίπεδο αιμοποιητικών βλαστοκύτταρων (LSK) τα οποία χάνονται κατά την ερυθροειδική διαφοροποίηση, αλλά όχι κατα την μεγακαρυωτική. Επίσης, συγκρίνοντας τις κατανομές DNase υπερ-ευαίσθητων περιοχών διαδοχικών σταδίων ερυθράς δέσμευσης και διαφοροποίησης καταλήγουμε στο συμπέρασμα πως η απενεργοποίηση αυτών των περιοχών ξεκινάει πριν τη δέσμευση στην ερυρθά σειρά και είναι ήδη εμφανής στο στάδιο των CD71+/Ter119- κυττάρων. Τέλος, αναπτύξαμε την Αριάδνη (aegeas.imbb.forth.gr/Ariadne/), μια δικτυακή εφαρμογή που επιτρέπει την σύγκριση συσχετισμένων κατανομών διαφορετικών επιγενετικών χαρακτηριστικών, όπως αυτές παράγονται από την υπολογιστική προσέγγιση που αναπτύξαμε. Επιπροπροσθέτως, επιτρέπει την απεικόνιση πρωτογενών NGS δεδομένων ενός ευρέως φάσματος γονιδίων στα πλαίσια των γονιδιοματικών τους περιοχών.
περισσότερα
Περίληψη σε άλλη γλώσσα
Cellular commitment and differentiation in multicellular organisms depend on the concerted action of transcription factors and epigenetic modifications in regulating differential patterns of gene expression. Understanding the molecular basis of such complex regulatory events has been greatly facilitated in recent years by the advent of next generation sequencing (NGS) technologies. Deciphering these data in extracting biological meaning has been a major challenge in the application of NGS technologies in gene regulation.Our main research interest is to elucidate the transcriptional regulatory events underlying hematopoiesis by specifically focusing on erythropoiesis. To these ends, the work described here entails the development of a computational approach in analyzing and integrating a large number of comprehensive NGS datasets of multiple genomic characteristics (transcription factor binding, epigenetic modifications etc.) in murine and human hematopoiesis. Our computational analysis ...
Cellular commitment and differentiation in multicellular organisms depend on the concerted action of transcription factors and epigenetic modifications in regulating differential patterns of gene expression. Understanding the molecular basis of such complex regulatory events has been greatly facilitated in recent years by the advent of next generation sequencing (NGS) technologies. Deciphering these data in extracting biological meaning has been a major challenge in the application of NGS technologies in gene regulation.Our main research interest is to elucidate the transcriptional regulatory events underlying hematopoiesis by specifically focusing on erythropoiesis. To these ends, the work described here entails the development of a computational approach in analyzing and integrating a large number of comprehensive NGS datasets of multiple genomic characteristics (transcription factor binding, epigenetic modifications etc.) in murine and human hematopoiesis. Our computational analysis relies on the combination of supervised (RandomForest regression) and unsupervised (hierarchical clustering) machine learning approaches, in producing highly structured gene wide distribution patterns of chromatin features in different hematopoietic cell populations.We fist applied this approach in characterizing the genome-wide occupancy profiles of the master erythroid transcription factor GATA1 which we obtained in mouse fetal liver erythropoiesis (Papadopoulos et al., 2013). We were able to classify GATA1 target genes into three distinct clusters, each associated with specific epigenetic signatures and functional characteristics, thus suggesting distinct GATA1 associated regulatory mechanisms.Next, we applied our computational approach to investigate the differential transcriptional and epigenetic events underlying the specification of the erythroid and megakaryocytic lineages. We identified a large group (~1000) of genes with active promoter marks in hematopoietic stem cell (LSK cells), which become specifically inactive in erythroid cells but not in megakaryocytes. Comparison of DNase hypersensitivity profiles available for all erythroid differentiation stages, indicated that inactivation of these promoters initiates before the stage of early erythroid commitment (CD71+/Ter119- cells), thus representing an early step of the erythroid specification process.Finally, we developed Ariadne (aegeas.imbb.forth.gr/Ariadne/) as a web based omprehensive tool to compare gene-wide relational profiles of multiple NGS datasets analyzed using our computational approach and in order to visualize primary sequencing data within single gene loci.
περισσότερα