Περίληψη
Η αλληλούχηση και συγκριτική ανάλυση πολλών γονιδιωμάτων θηλαστικών κατέδειξε ότι τουλάχιστον ένα 5.5% του ανθρώπινου γονιδιώματος βρίσκεται κάτω από επιλεκτική πίεση κατά την εξελικτική πορεία του. Από αυτό, το 1.5% εκτιμάται ότι κωδικοποιεί πολυπεπτιδικές αλυσίδες ενώ το 3.5% φαίνεται πως παίζει ρυθμιστικό ρόλο. Εν τούτοις, ο βαθμός κατανόησής μας για τους ρόλους που επιτελεί μεγάλο μέρος του συντηρημένου DNA που δεν κωδικοποιεί πρωτεΐνες ποικίλει. Μία από τις σημαντικότερες ανακαλύψεις που προέκυψαν από την ολική στοίχιση γονιδιωμάτων θηλαστικών ήταν η ταυτοποίηση εκατοντάδων «υπερσυντηρημένων»στοιχείων (UltraConserved Elements, UCE) μήκους άνω των 200 bp τα οποία δείχνουν απόλυτη(100%) συντηρητικότητα μεταξύ των γονιδιωμάτων του ανθρώπου, του ποντικού και του αρουραίου. Ένα στα τέσσερα από αυτά τα στοιχεία επικαλύπτουν μερικώς γνωστά γονίδια που κωδικοποιούν πρωτεΐνες. Παρόλα αυτά, τόσο υψηλό βαθμό συντηρητικότητας (100%) δεν αναμένουμε ούτε για εξώνια γονιδίων, λόγω του εκφυλισμού ...
Η αλληλούχηση και συγκριτική ανάλυση πολλών γονιδιωμάτων θηλαστικών κατέδειξε ότι τουλάχιστον ένα 5.5% του ανθρώπινου γονιδιώματος βρίσκεται κάτω από επιλεκτική πίεση κατά την εξελικτική πορεία του. Από αυτό, το 1.5% εκτιμάται ότι κωδικοποιεί πολυπεπτιδικές αλυσίδες ενώ το 3.5% φαίνεται πως παίζει ρυθμιστικό ρόλο. Εν τούτοις, ο βαθμός κατανόησής μας για τους ρόλους που επιτελεί μεγάλο μέρος του συντηρημένου DNA που δεν κωδικοποιεί πρωτεΐνες ποικίλει. Μία από τις σημαντικότερες ανακαλύψεις που προέκυψαν από την ολική στοίχιση γονιδιωμάτων θηλαστικών ήταν η ταυτοποίηση εκατοντάδων «υπερσυντηρημένων»στοιχείων (UltraConserved Elements, UCE) μήκους άνω των 200 bp τα οποία δείχνουν απόλυτη(100%) συντηρητικότητα μεταξύ των γονιδιωμάτων του ανθρώπου, του ποντικού και του αρουραίου. Ένα στα τέσσερα από αυτά τα στοιχεία επικαλύπτουν μερικώς γνωστά γονίδια που κωδικοποιούν πρωτεΐνες. Παρόλα αυτά, τόσο υψηλό βαθμό συντηρητικότητας (100%) δεν αναμένουμε ούτε για εξώνια γονιδίων, λόγω του εκφυλισμού του γενετικού κώδικα. Από τότε που ανακαλύφθηκαν τα UCE έγιναν προσπάθειες για τον εντοπισμό συντηρημένων στοιχείων σε ολικές στοιχίσεις γονιδιωμάτων δύο ή περισσοτέρων ειδών, με κριτήριο χαμηλότερο κατώφλι ομοιότητας και διαφορετικά κατώφλια ελάχιστου μήκους της συντηρημένης ακολουθίας. Επιπλέον, χρησιμοποιήθηκε ως κριτήριο αποκλεισμού στοιχείων, η παρουσία τους μέσα σε γονίδια που κωδικοποιούν πρωτεΐνες. Στην παρούσα διατριβή χρησιμοποιούμε συγκεντρωτικά τον όρο Συντηρημένα Μη Εκφραζόμενα Στοιχεία (Conserved Noncoding Elements, CNE) παρά το γεγονός ότι στη βιβλιογραφία αναφέρονται και ως UCEs, UCNEs, HCNEs, LCNEs, CNGs,κλπ. Όταν αναφερόμαστε σε μια συγκεκριμένη τάξη στοιχείων τότε χρησιμοποιούμε την εκάστοτε ονομασία.Τα CNE δεν είναι καινοτομία των σπονδυλωτών γιατί ανάλογα στοιχεία ανιχνεύονται και στα γονιδιώματα ασπονδύλων, καθώς και φυτών μέσω στοιχίσεων μεταξύ μελών της εκάστοτε ταξινομικής ομάδας. Εντούτοις, στο σχετικά πρόσφατο εξελικτικό παρελθόν των γονιδιωμάτων των σπονδυλωτών, το μέσο μήκος και ο βαθμός συντηρητικότητας των CNE παρατηρούνται να έλαβαν μεγαλύτερες τιμές, σχετικά με τις άλλες ταξινομικές ομάδες, ενώ οι ρόλοι που φαίνεται ότι απέκτησαν είναι ιδιαίτερα σημαντικοί.Τα CNE φαίνεται πως δεν κατανέμονται τυχαία στο ανθρώπινο και σε άλλα γονιδίωματα. Mάλιστα, κατά ένα ποσοστό, συναθροίζονται κοντά σε γονίδια που εμπλέκονται στη ρύθμιση της μεταγραφής ή/και γενικότερα, στην ανάπτυξη. Χρησιμοποιώντας ανάλυση μικροσυστοιχιών έγινε γνωστό ότι ένα μεγάλο ποσοστό μη κωδικοποιούντων UCE εμφανίζουν ιστοειδικά επίπεδα έκφρασης (σε επίπεδο λειτουργικού RNA), ενώ απορρυθμίζονται σε ορισμένα είδη καρκίνου. Οι γονιδιακές έρημοι είναι συνήθως εμπλουτισμένες σε CNE ενώ, στα γονιδιώματα θηλαστικών, η πλειοψηφία αυτών των στοιχείων ευρίσκεται σε μεγάλες αποστάσεις από τα πλησιέστερα γονίδια. Έχει δημοσιευτεί πληθώρα μελετών που προτείνουν ότι τα CNE βρίσκονται όντως υπό επιλεκτική πίεση κατά την εξέλιξή τους και δεν αποτελούν σημεία με χαμηλότερο ρυθμό μεταλλάξεων (mutational cold spots). Παρά ταύτα, λίγα είναι γνωστά για το ποιά είναι η λειτουργία τους σε κυτταρικό επίπεδο. Μελέτες δείχνουν ότι ενδεχομένως δρουν ως ρυθμιστές της μεταγραφής, δηλαδή ως ενισχυτές ή μονωτές, ωστόσο τα περισσότερα (με μία εξαίρεση) invivo πειράματα σε ποντίκια, όπου γίνεται αφαίρεση κάποιων από αυτά τα στοιχεία, δε δίνουν κάποιο ορατό φαινοτυπικό αντίκτυπο, κάνοντας ακόμα πιο πολύπλοκη την όποια ερμηνεία βιοχημικών και υπολογιστικών πειραμάτων. Έχει επίσης διατυπωθεί μια εναλλακτική υπόθεση,σύμφωνα με την οποία τα CNE μεταφέρονται οριζόντια μεταξύ γενεών και συσσωρεύονται κατά τη μακρά εξελικτική πορεία. Σε μια μελέτη, επιπλέον, προτάθηκε ότι κάποια CNE ενδεχομένως δρουν ως περιοχές πρόσδεσης στον πυρηνικό φάκελο (Matrix Attachment Regions, MARs) διαδραματίζοντας το ρόλο αλληλουχιών που ρυθμίζουν την αρχιτεκτονική της χρωματίνης μέσω εξειδικευμένης πρόσδεσης συγκεκριμένων πρωτεϊνών. Τα CNE έχει αναφερθεί, μάλιστα, ότι εμπλέκονται στη φαινοτυπική ποικιλομορφία και σε ποικιλία ασθενειών κυρίως σχετιζόμενων με αναπτυξιακές διαδικασίες. Στην παρούσα διατριβή επιχειρήσαμε να αναλύσουμε την χωροταξική οργάνωση των Συντηρημένων Μη Εκφραζομένων Στοιχείων (CNE) σε γονιδιώματα σπονδυλωτών και ασπόνδυλων, με σκοπό να διαπιστώσουμε αν μπορούμε να εξάγουμε κάποια συμπεράσματα για το πώς εξελίχθησαν αυτές οι αλληλουχίες με βάση την κατανομή τους στα χρωμοσώματα. Διαπιστώσαμε ότι οι αποστάσεις αυτών ακολουθούν κατανομές τύπου νόμου δύναμης σε μια ποικιλία γονιδιωμάτων. Τέτοιου τύπου κατανομές συνδέονται με συσχετίσεις μακράς εμβέλειας και μορφοκλασματικότητα (έννοιες που έχουν προταθεί για τη στερεοδιαμόρφωση της δομής της χρωματίνης του πυρήνα) και φαίνεται ότι απαντώνται πολύ συχνά στο γονιδίωμα, όπως προκύπτει από τη μελέτη διαφόρων στοιχείων του, σε πληθώρα οργανισμών. Δεδομένου ότι τα CNE σχετίζονται χωρικά με γονίδια, ειδικά με αυτά που ρυθμίζουν αναπτυξιακές διαδικασίες,επιβεβαιώσαμε ότι ένα πρότυπο νόμου δύναμης διατηρείται ανεξάρτητα από το εάν συμπεριληφθούν στοιχεία που βρίσκονται εντός ή εκτός γονιδίων. Όσο πιο «αρχαία» είναι αυτά τα στοιχεία τόσο πιο εκτεταμένες γραμμικότητες δίνουν σε διπλή λογαριθμική κλίμακα, δηλαδή τόσο πιο πολύ συμβάλουν στις παρατηρούμενες κατανομές. Προτείναμε ένα εξελικτικό μοντέλο για την κατανόηση αυτών των ευρημάτων που περιλαμβάνει γεγονότα τμηματικών διπλασιασμών ή διπλασιασμών ολόκληρου του γονιδιώματος και απαλοιφές των περισσοτέρων από τα διπλασιασμένα CNE. Προσομοιώσεις που πραγματοποιήσαμε αναπαράγουν τα κύρια χαρακτηριστικά των παρατηρουμένων κατανομών μεγέθους. Με βάση τα παραπάνω ευρήματα, προχωρήσαμε και σε έναν άλλο τύπο ανάλυσης της χρωμοσωμικής κατανομής των CNE, με χρήση μεθόδων κλιμάκωσης εντροπίας Shannon(Shannon entropy scaling) και εγκιβωτισμού (box counting) που έχουν αναπτυχθεί στο εργαστήριο. Οι συγκεκριμένες μέθοδοι κάνουν εκτίμηση των χαρακτηριστικώνμορφοκλασματικότητας σε ένα σύνολο δεδομένων και έχουν χρησιμοποιηθεί για τη μελέτη της κατανομής άλλων στοιχείων του γονιδιώματος, όπως είναι οι κωδικοποιούσες αλληλουχίες και τα μεταθετά στοιχεία. Ενδείκνυνται για τη μελέτη της κατανομής των CNE ειδικότερα, διότι τα τελευταία έχει προταθεί μέσω πειραμάτων 3C (Chromosome Conformation Capture) ότι αλληλεπιδρούν μεταξύ τους και συνεπώς ενέχονται πιθανόν σε συσχετίσεις μακράς εμβέλειας. Παρατηρήσαμε ενδιαφέροντα πρότυπα κατανομής, χαρακτηριστικά των διαφόρων κλάσεωνCNE, που διαφοροποιούνται σύμφωνα με το εξελικτικό βάθος συντηρητικότητας των εκάστοτε στοιχείων. Τα CNE παρουσιάζουν ενδιαφέρουσες ιδιότητες σύστασης και γι’αυτό επιχειρήσαμε να δούμε αν μπορούν να κατηγοριοποιηθούν με βάση αυτές τους τις ιδιότητες. Πιο συγκεκριμένα είναι γενικά αλληλουχίες πλούσιες σε A+T ενώ περιβάλλονται από περιοχές χαμηλού Α+Τ. Προσπαθήσαμε, λοιπόν, να ταξινομήσουμε στοιχεία που βρίσκονται υπό επιλεκτική πίεση(εξώνια και CNE) με δύο μεθόδους μηχανικής μάθησης: «Γραφήματα Ν-γραμμάτων» (N-GramGraphs, NGGs) και «Ανάλυση κ-μερών» (Logic Alignment Free, LAF). Διαπιστώσαμε ότι και με τις δύο μεθόδους, που για πρώτη φορά εφαρμόστηκαν στα πλαίσια ανάλυσης γονιδιωματικών δεδομένων, είναι εφικτή η κλασμάτωση αλληλουχιών του γονιδιώματος (CNE, εξώνια) σε διαφορετικές κατηγορίες μεταξύ γονιδιωμάτων ή εντός του ίδιου γονιδιώματος.Χρησιμοποιήσαμε στις αναλύσεις / συγκρίσεις μας κατάλληλες αναπληρωματικές αλληλουχίες που απομονώνονταν από το εκάστοτε γονιδίωμα έτσι ώστε να έχουν ίδιο μήκος και ποσοστόGC% με τις υπό μελέτη αλληλουχίες μας (CNE / εξώνια). Συγκρίναμε τα αποτελέσματα ταξινόμησης που πήραμε και από τις δύο μεθόδους με μια άλλη ευρέως διαδεδομένη προσέγγιση διαχωρισμού ολόκληρων γονιδιωμάτων που αναφέρεται ως «Γονιδιωματικές Υπογραφές»(Genomic Signatures, GS). Η μελέτη μας αυτή ήταν η πρώτη εφαρμογή των «Γονιδιωματικών Υπογραφών» στην κατάταξη μικρών βιολογικών αλληλουχιών μεγέθους < 50 kb.Για τις ανάγκες όλων των προαναφερθέντων πειραματικών προσεγγίσεων προχωρήσαμε και σε ταυτοποίηση καινούριων στοιχείων CNE στα γονιδιώματα του ανθρώπου (H. sapiens),του σκώληκα (C. elegans) και της μύγας (D. melanogaster). Τα στοιχεία αυτά ταυτοποιήθηκαν έτσι ώστε να προέρχονται από οργανισμούς που να έχουν αποκλίνει από τον κοινό τους εξελικτικό πρόγονο παρόμοιες χρονικές περιόδους. Ενδιαφέρουσες συσχετίσεις και διαφοροποιήσεις μεταξύ αυτών των στοιχείων παρατηρήθηκαν με τη χρήση μεθόδων μηχανικής μάθησης που αναφέρθηκαν πιο πριν. Πιο συγκεκριμένα είδαμε ότι αλληλουχίες CNE που παρουσιάζουν υψηλή ομοιότητα ( > 95% και έως 100%) μεταξύ στοιχίσεων γονιδιωμάτων ανθρώπου / κοτόπουλου φαίνεται πως συνιστούν μια διακριτή κατηγορία υπερσυντηρημένων στοιχείων που επιτελεί λειτουργίες που μένει να ανακαλυφθούν. Το εντυπωσιακό αυτό ποσοστό συντηρητικότητας είναι ακόμα μεγαλύτερο από αυτό που παρατηρείται στα εξώνια(συγκρίνοντας τους δύο αυτούς οργανισμούς, άνθρωπο - κοτόπουλο), ενώ δεν είναι γνωστή κάποια λειτουργία στη φύση, που να απαιτεί τόσο υψηλό βαθμό ομοιότητας σε επίπεδο αλληλουχίας.
περισσότερα
Περίληψη σε άλλη γλώσσα
The sequencing and comparative analysis of many mammalian genomes has indicated that atleast 5.5% of the human genome is under selective constraint; of that, 1.5% is estimated to codefor proteins, 3.5% displays known regulatory functions, while for the function of the rest there islittle or no information available. One of the most interesting discoveries that have arisen fromcomparative analysis among mammalian genomes is the discovery of hundreds of ultraconservedelements (UCEs) of more than 200bp in length that show absolute conservation among thehuman, mouse and rat genomes. One out of four of UCEs overlaps known protein-coding genes.However, we do not expect such a high degree of conservation (100%) even in exons, due to thedegeneration of the genetic code. Since the discovery of UCEs, there have been efforts to identifyconserved elements based on lower thresholds of sequence identity over whole genomealignments of two or more species. Several thresholds of minimal length of conse ...
The sequencing and comparative analysis of many mammalian genomes has indicated that atleast 5.5% of the human genome is under selective constraint; of that, 1.5% is estimated to codefor proteins, 3.5% displays known regulatory functions, while for the function of the rest there islittle or no information available. One of the most interesting discoveries that have arisen fromcomparative analysis among mammalian genomes is the discovery of hundreds of ultraconservedelements (UCEs) of more than 200bp in length that show absolute conservation among thehuman, mouse and rat genomes. One out of four of UCEs overlaps known protein-coding genes.However, we do not expect such a high degree of conservation (100%) even in exons, due to thedegeneration of the genetic code. Since the discovery of UCEs, there have been efforts to identifyconserved elements based on lower thresholds of sequence identity over whole genomealignments of two or more species. Several thresholds of minimal length of conserved sequencehave been used as well as the exclusion of elements inside protein-coding genes. Throughout thisthesis, we use the term CNE(s) for Conserved Noncoding Elements to describe all such elementsdespite their specific characterization as UCEs, UCNEs, HCNEs, CNGs, CNEs etc in the relatedliterature. We have used the specific name only when we refer to the corresponding class ofelements.CNEs are not a vertebrate innovation, but are also found in invertebrate and plantgenomes. The vertebrate, insect and nematode CNEs are not related to each other at the sequencelevel. In the relatively recent evolution of vertebrate genomes, the mean length and conservationof CNEs found therein are the highest observed, regarding all taxonomic groups, while theconjectured roles they have acquired are particularly important.CNEs are not randomly distributed in the human and other genomes. They are oftenclustered in the vicinity of genes involved in transcriptional regulation and/or development. Using microarray analysis it was reported that a large fraction of noncoding UCEs have tissuespecificexpression levels and are deregulated in human cancer. Gene deserts are usually enrichedin CNEs while, in mammalian genomes, the vast majority of those elements are found at longdistances from the closest genes, exceeding in some cases 2Mb, which is the limit for any knowncis regulatory element. There is a corpus of literature suggesting that CNEs are selectivelyconstrained and not mutational cold spots. Despite this fact, little is known about what theirfunction could be at the cellular level. Studies showing that CNEs might act as transcriptionalregulators, e.g. enhancers or insulators, have been published, although most (with one exception)in vivo experiments of elimination of some of these elements yield viable mice, rendering more difficult the interpretation of any biochemical or computational experiment. The alternativehypothesis that CNEs are horizontally transferred between lineages and accumulate during thecourse of long-term evolution has also been expressed. Furthermore, a study has suggested thatCNEs might act as Matrix-Attachment Regions (MARs) by serving as sequences that regulate thearchitecture of chromatin through specific binding of particular proteins. An association betweenCNEs and phenotypic variation and disease has also been reported.In the present thesis, we attempted to analyse the spatial organization of ConservedNoncoding Elements (CNEs) in vertebrate and invertebrate genomes with the aim to investigatewhether we could deduce how those sequences evolved. We found out that the distances ofconsecutive CNEs follow power law-like distributions in a variety of genomes. Such kinds ofdistributions are associated with long range correlations and fractality (notions that have beenproposed for the conformation of the chromatin inside the nucleus) and seem to occur frequentlyin the genome as evidenced by the study of different genomic elements in a variety of organisms.Given that CNEs are spatially associated with genes, especially with those that regulatedevelopmental processes, we verified by appropriate gene masking that a power-law-like patternemerges irrespectively of whether elements found inside protein-coding genes are excluded ornot. In addition, we found that the more ancient elements form the most extended linearities inlog log plots, when the distances between ancient CNEs are plotted. An evolutionary model wasput forward for the understanding of these findings that includes segmental or whole genomeduplication events and eliminations (loss) of most of the duplicated CNEs. Simulations reproducethe main features of the observed size distributions. Power-law-like patterns in the genomicdistributions of CNEs are in accordance with current knowledge about their evolutionary historyin several genomes Based on our initial findings we proceeded to another type of analysis of the chromosomaldistribution of CNEs using the methods of Shannon entropy scaling and box counting, adoptedfrom the field of Information Theory. Those methods are used to measure the fractality features ina dataset and have been employed in our lab for the study of the distribution of other genomicelements, such as coding sequences and transposable elements. They are especially suited in thecase of CNEs, as the latter have been shown via Chromosome Conformation Capture (3C) to beinvolved in long range correlations. We observed interesting distributional patterns, characteristicof the different classes of CNEs studied, that differentiate according to the evolutionary depth ofCNEs.CNEs display interesting DNA composition preferences. This prompted us to investigatewhether we could classify them by means of their sequence characteristics alone. Morespecifically, CNEs are generally AT rich sequences while they are surrounded by regions of low AT content. We attempted to classify constrained elements in general (exons and CNEs) usingtwo machine learning approaches: N-Gram Graphs (NGGs) and Logic Alignment Free (LAF).The application of those of two methodologies in the field of genomics is presented for the firsttime in this thesis. Overall, we managed to effectively classify genomic sequences of functional(or presumably functional) roles into different categories between genomes or inside the samegenome. We used pairwise comparisons to do our analysis and naturally – occuring surrogatesequences that are of the same length and GC content with each one of the sequences comprisingthe studied dataset (CNEs / exons). We compared the classification rates obtained using boththese approaches (NGGs and LAF) with another methodology, widely implemented indisciminating whole genomes, that is called «Genomic Signatures» (GS). Our study is the firstone demonstrating the applicability of the GS approach in disciminating short biologicalsequences of length < 50 kb.For the sake of all the above mentioned approaches, we also proceeded to theidentification of new Conserved Noncoding Elements in the human (H. sapiens), worm (C.elegans) and insect (D. melanogaster) genomes. In those case, the species selected for CNEidentification are characterized by the fact that evolutionary distances with every pair of wholegenome alignments are close. We managed to discriminate those sequences efficiently andproposed biological interpretations. More specifically, CNE that display high sequence similarity( > 95% and up to 100%) between human / chicken whole genome alignments are thought tocompose a distinct category of ultraconserved elements that probably play roles in processes thatare yet to be determined. This remarkable percentage of sequence similarity is even greater thanthe one observed for exonic sequences (comparing the two organisms, human / chicken) whilethere is no known function that requires such a high degree of conservation.
περισσότερα