Περίληψη
Οι μελέτες γενετικής συσχέτισης γονιδιωματικής κλίμακας (Genome Wide Association Studies-GWAS) έχουν προσδιορίσει εκατοντάδες γενετικούς τόπους που σχετίζονται με νοσήματα. Μέχρι σήμερα, υπάρχουν μόνο γενικά αποθετήρια δεδομένων GWAS αλλά δεν υπάρχουν ειδικές για νοσήματα μετα-βάσεις δεδομένων που να ενσωματώνουν γονιδιωματικά δεδομένα, μεταξύ των οποίων συσχετίσεις παραλλαγών-γονιδίων, αλλά και να συνδυάζουν λειτουργικά δεδομένα σε κάθε επίπεδο της γενετικής πληροφορίας, συμπεριλαμβανομένων δεδομένων eQTL και αλληλεπιδράσεων μεταξύ πρωτεϊνών. Αυτά θα επιτρέψουν την ολιστική ανάλυση των δεδομένων GWAS για ένα συγκεκριμένο νόσημα, στο πλαίσιο των βιομοριακών δικτύων, επικυρώνοντας και αναβαθμίζοντας το πληροφοριακό τους πλαίσιο. Για το σκοπό αυτό, η παρούσα μελέτη έχει ως στόχο την ανάπτυξη μιας μετα-βάσης δεδομένων GWAS για τη ρύθμιση της αρτηριακής πίεσης και την ανάλυση αυτών των δεδομένων στο πλαίσιο του δικτύου πρωτεϊνικών αλληλεπιδράσεων (Protein-Protein Interaction -PPI- Network) ...
Οι μελέτες γενετικής συσχέτισης γονιδιωματικής κλίμακας (Genome Wide Association Studies-GWAS) έχουν προσδιορίσει εκατοντάδες γενετικούς τόπους που σχετίζονται με νοσήματα. Μέχρι σήμερα, υπάρχουν μόνο γενικά αποθετήρια δεδομένων GWAS αλλά δεν υπάρχουν ειδικές για νοσήματα μετα-βάσεις δεδομένων που να ενσωματώνουν γονιδιωματικά δεδομένα, μεταξύ των οποίων συσχετίσεις παραλλαγών-γονιδίων, αλλά και να συνδυάζουν λειτουργικά δεδομένα σε κάθε επίπεδο της γενετικής πληροφορίας, συμπεριλαμβανομένων δεδομένων eQTL και αλληλεπιδράσεων μεταξύ πρωτεϊνών. Αυτά θα επιτρέψουν την ολιστική ανάλυση των δεδομένων GWAS για ένα συγκεκριμένο νόσημα, στο πλαίσιο των βιομοριακών δικτύων, επικυρώνοντας και αναβαθμίζοντας το πληροφοριακό τους πλαίσιο. Για το σκοπό αυτό, η παρούσα μελέτη έχει ως στόχο την ανάπτυξη μιας μετα-βάσης δεδομένων GWAS για τη ρύθμιση της αρτηριακής πίεσης και την ανάλυση αυτών των δεδομένων στο πλαίσιο του δικτύου πρωτεϊνικών αλληλεπιδράσεων (Protein-Protein Interaction -PPI- Network) του ανθρώπου, καθώς η συγκεκριμένη φυσιολογία προκύπτει από τη διαρρύθμιση αλληλεπιδρώντων πολυγονιδιακών μονοπατιών. Η ροή εργασίας που εφαρμόστηκε περιλαμβάνει: (α) την ανάπτυξη μιας συστηματικά επιμελημένης από τη βιβλιογραφία μετα-βάσης δεδομένων GWAS για τη ρύθμιση της αρτηριακής πίεσης, συμπεριλαμβανομένων συσχετίσεων παραλλαγών-γονιδίων και δεδομένων eQTL (β) την προτεραιοποίηση γονιδίων που υποδεικνύονται από τις GWAS βάσει συνδυαστικών κριτηρίων που βασίζονται στα δεδομένα GWAS, (γ) την ανακατασκευή ενός εκτεταμένου δικτύου πρωτεϊνικών αλληλεπιδράσεων για την αρτηριακή πίεση, για την ταυτοποίηση νέων πρωτεϊνών σχετικών με την αρτηριακή πίεση ως γειτονικές των πρωτεϊνών που έχουν υποδειχθεί από τις GWAS, (δ) την ανάλυση εμπλουτισμού σε μονοπάτια του εκτεταμένου συνόλου των σχετικών με την αρτηριακή πίεση πρωτεϊνών και (ε) την προτεραιοποίηση των γονιδίων/πρωτεϊνών στο εκτεταμένο σύνολο βάσει κριτηρίων που βασίζονται στα δεδομένα GWAS και στην ανάλυση του ανακατασκευασμένου δικτύου.Το σχεσιακό σχήμα της μετα-βάσης δεδομένων GWAS για τη ρύθμιση της αρτηριακής πίεσης, που υλοποιήθηκε με το εργαλείο Microsoft SQL Server, επέτρεψε την αποθήκευση: (α) δεδομένων και χαρακτηριστικών των GWAS, όπως εξορύσσονται από τη βάση δεδομένων GWAS Catalog, η πλειονότητα των οποίων επιμελούνται από τη βιβλιογραφία, (β) γονιδιωματικών δεδομένων από την Ensembl, και (γ) μετρήσεων eQTL από την GTEx. Όλες οι πληροφορίες συνδέονται με το οντολογικό δίκτυο πρωτεϊνικών αλληλεπιδράσεων του ανθρώπου της μετα-βάσης γνώσης PICKLΕ, η οποία χρησιμοποιήθηκε για την ανακατασκευή του σχετικού με τη ρύθμιση της αρτηριακής πίεσης δικτύου πρωτεϊνικών αλληλεπιδράσεων. Προτείναμε (α) ένα ολοκληρωμένο σκορ προτεραιοποίησης γονιδίων που βασίζεται σε δεδομένα GWAS, (β) μια μέθοδο που βασίζεται στην εύρεση των συντομότερων μονοπατιών (shortest paths) για την επέκταση του δικτύου πρωτεϊνικών αλληλεπιδράσεων που προκύπτει από τις GWAS, υποθέτοντας τους ενδιάμεσους κόμβους ως σχετιζόμενους με την αρτηριακή πίεση, (γ) δύο κριτήρια προτεραιοποίησης του εκτεταμένου συνόλου των σχετικών με την αρτηριακή πίεση πρωτεϊνών που βασίζονται στο δίκτυο, αξιολογώντας τον ρόλο τους στο ανακατασκευασμένο πρωτεϊνικό δίκτυο σχετικό με την αρτηριακή πίεση και στο υποδίκτυο των προτεραιοποιημένων GWAS-πρωτεϊνών και των κοινών γειτόνων τους. To ολοκληρωμένο σύνολο των σχετικών με την αρτηριακή πίεση πρωτεϊνών που προτεραιοποιούνται είναι η ένωση των τριών υποομάδων, όπου χαρακτηρίζονται ως πιο σημαντικές εκείνες με βάση τον αριθμό των κριτήρια ικανοποιούν. Η ανάλυση εμπλουτισμού των μονοπατιών με πρωτεΐνες σχετικές με τη ρύθμιση της αρτηριακής πίεσης πραγματοποιήθηκε αξιοποιώντας τις βάσεων δεδομένων KEGG και DAVID. Η ανάλυση δικτύου βασίστηκε στο εργαλείο Cytoscape. Για το εκτεταμένο σύνολο πρωτεϊνών σχετικών με την αρτηριακή πίεση προσδιορίστηκαν, επίσης. οι πρωτεΐνες-στόχοι αντι-υπερτασικών φαρμάκων κάνοντας χρήση των βάσεων δεδομένων UniProt και DrugBank και οι συσχετίσεις τους με άλλα νοσήματα μέσω της DAVID.Η μετα-βάση δεδομένων GWAS για τη ρύθμιση της αρτηριακής πίεσης περιλαμβάνει 6687 παραλλαγές που σχετίζονται στατιστικώς σημαντικά με την αρτηριακή πίεση, με τις 3738 να σχετίζονται με 1167 γονίδια πρωτεϊνών. Περίπου 25% των γονιδίων χαρτογραφούνται στα χρωμοσώματα 1, 2 και 11 και ~57% υποστηρίζονται από μετρήσεις eQTL, που σχετίζονται κυρίως με την κνημιαία αρτηρία και το κνημιαίο νεύρο. Με τη συστολική ή τη διαστολική αρτηριακή πίεση σχετίζονται το ~60% και το ~40% των γονιδίων, αντίστοιχα, και 20% με αμφότερα τα χαρακτηριστικά. Το ολοκληρωμένο κριτήριο προτεραιοποίησης που βασίζεται σε GWAS προτεραιοποίησε 103 γονίδια. Στο δίκτυο πρωτεϊνικών αλληλεπιδράσεων του ανθρώπου, τα δύο τρίτα (672) των σχετικών με την αρτηριακή πίεση πρωτεϊνών (1065) σχηματίζουν ένα συνδεδεμένο πρωτεϊνικό υποδίκτυο. Μέσω της επέκτασης του σχετικού με την αρτηριακή πίεση πρωτεϊνικού δικτύου μέσω των συντομότερων μονοπατιών που συνδέουν τις πρωτεΐνες που προκύπτουν από τις GWAS προσδιορίστηκαν 1443 ενδιάμεσοι κόμβοι ως δυνητικά σχετιζόμενοι με την αρτηριακή πίεση και αποκαλύφθηκε ότι σχεδόν όλες οι πρωτεΐνες που προκύπτουν από τις GWAS είναι το πολύ δεύτεροι γείτονες. Η ανάλυση του ανακατασκευασμένου πρωτεϊνικού δικτύου υπέδειξε 106 πρωτεΐνες που σχετίζονται σημαντικά με την αρτηριακή πίεση, ενώ 253 πρωτεΐνες συμπεριλήφθηκαν στο υποδίκτυο των πρωτεϊνών που έχουν προτεραιοποιηθεί βάσει του ολοκληρωμένου κριτηρίου προτεραιοποίησης που βασίζεται στα δεδομένα GWAS και των κοινών γειτόνων τους. Η ένωση των τριών υποσυνόλων των πρωτεϊνών που προτεραιοποιούνται περιλαμβάνει 335 πρωτεΐνες σχετικές με την αρτηριακή πίεση, από τις οποίες 211 ανήκουν στις 1443 πρωτεΐνες που προσδιορίστηκαν από την ανακατασκευή του δικτύου, και 93% σχηματίζουν ένα συνδεδεμένο δίκτυο. Στο σύνολο των προτεραιοποιημένων, μια πρωτεΐνη κατατάσσεται υψηλότερα με βάση των αριθμό των κριτηρίων προτεραιοποίησης που ικανοποιεί. Η ESR1 ικανοποιεί και τα τρία κριτήρια προτεραιοποίησης. Στην λίστα κατάταξης την ESR1 ακολουθούν οι πρωτεΐνες που προτεραιοποιηθεί βάσει του ολοκληρωμένου κριτηρίου προτεραιοποίησης που βασίζεται στα δεδομένα GWAS και έχουν κοινούς γείτονες, συμπεριλαμβανομένων των INSR, PTN11, CDK6, CSK, NOS3, SH2B3, ATP2B1, FES και FINC. Η ανάλυση εμπλουτισμού των μονοπατιών του εκτεταμένου συνόλου των πρωτεϊνών που σχετίζονται με τη ρύθμιση της αρτηριακής πίεσης υπέδειξε εμπλουτισμό σε πολυάριθμες βιολογικές διεργασίες και μονοπάτια που σχετίζονται με την αρτηριακή πίεση. Ιδιαίτερα, τα περισσότερα μονοπάτια προσδιορίστηκαν ως σημαντικά εμπλουτισμένα μετά την ανακατασκευή του πρωτεϊνικού δικτύου, συμπεριλαμβανομένου του μονοπατιού σηματοδότησης HIF1. Κάποιες από τις σχετικές με την αρτηριακή πίεση πρωτεΐνες είναι στόχοι αντι-υπερτασικών φαρμάκων και πολλές σχετίζονται και με άλλα νοσήματα μεταξύ των οποίων ο διαβήτης και το μεταβολικό σύνδρομο, νευρολογικά νοσήματα, η καρδιακή και νεφρική ανεπάρκεια και το εγκεφαλικό επεισόδιο. Πράγματι, η ολοκληρωμένη ανάλυση των δεδομένων GWAS και του δικτύου πρωτεϊνικών αλληλεπιδράσεων επεκτείνει τις γνώσεις μας σχετικά με τη ρύθμιση της αρτηριακής πίεσης. Η προτεινόμενη ροή εργασίας που εφαρμόστηκε στην παρούσα διατριβή θα μπορούσε συνεπώς να χρησιμοποιηθεί για άλλα πολυπαραγοντικά νοσήματα εμπλουτίζοντας τη συσχέτιση γονοτύπου-φαινοτύπου με επιπρόσθετα δεδομένα.
περισσότερα
Περίληψη σε άλλη γλώσσα
Genome-wide association studies (GWAS) have identified thousands of complex disease-associated loci. To-date, only general GWAS data repositories exist, but no disease-specific meta-databases integrated with genomic data, including variant-gene associations and, also, combined with functional data at any level of genetic information, including eQTL and protein interaction data. These will enable the holistic GWAS data analysis for a particular disease, in the context of biomolecular networks, validating and upgrading their information context. To this end, this study aimed at developing a GWAS meta-database for blood pressure (BP) regulation and analyzing it in the context of the human protein-protein interaction (PPI) network, as the specific physiology results from the inter-regulation of interacting polygenic pathways. The implemented workflow involves: (a) the development of a systematically literature-curated BP GWAS meta-database, including variant-gene associations and eQTL data ...
Genome-wide association studies (GWAS) have identified thousands of complex disease-associated loci. To-date, only general GWAS data repositories exist, but no disease-specific meta-databases integrated with genomic data, including variant-gene associations and, also, combined with functional data at any level of genetic information, including eQTL and protein interaction data. These will enable the holistic GWAS data analysis for a particular disease, in the context of biomolecular networks, validating and upgrading their information context. To this end, this study aimed at developing a GWAS meta-database for blood pressure (BP) regulation and analyzing it in the context of the human protein-protein interaction (PPI) network, as the specific physiology results from the inter-regulation of interacting polygenic pathways. The implemented workflow involves: (a) the development of a systematically literature-curated BP GWAS meta-database, including variant-gene associations and eQTL data, (b) the prioritization of GWAS-suggested genes based on GWAS-associated combined criteria, (c) the reconstruction of an extended BP PPI network, identifying new BP-associated proteins as neighbors of the GWAS-suggested, (d) pathway enrichment analysis of the extended set of BP-associated proteins, and (e) prioritization of the genes/proteins in the extended set based on GWAS and network analysis criteria. The BP GWAS meta-database relational scheme, implemented in Microsoft SQL Server, enabled the storage of: (a) the GWAS data and attributes, as mined from GWAS Catalog and, mostly, manually curated from the literature, (b) the Ensembl genomic data and (c) eQTL measurements from GTEx. All information is connected to the human ontological network of PICKLE PPI meta-database; the latter was used for BP PPI network reconstruction. We proposed (a) an integrated GWAS-based gene prioritization score, (b) a shortest path-based method for extending the GWAS-based PPI network, assuming the intermediates as BP-related, (c) two network-based prioritization criteria of the extended BP-protein set, evaluating the protein role in the reconstructed BP-protein interactome and in the subnetwork of GWAS-prioritized and their common neighbours. The complete set of the prioritized BP-proteins is the union of the three subsets, characterized as more significant the more criteria they satisfy. Pathway enrichment analysis was carried out based on KEGG and DAVID. Network analysis was based on Cytoscape. For the extended set of BP proteins, those targeted by anti-hypertensive drugs were, also, identified by using the UniProt and DrugBank databases, as well as those associated with other diseases through DAVID. The BP GWAS meta-database includes 6687 variants significantly associated with BP, with 3738 being associated with 1167 protein-coding genes. About 25% of the genes are mapped to chromosomes 1, 2, 11 and ~57% are supported by e-QTL measurements, mostly associated with artery and nerve tibial. Associated with systolic or diastolic BP or both traits are, respectively, ~60% ~40% and 20%. The integrated GWAS-based prioritization criterion prioritized 103 genes. In the human PPI network, the two thirds (672) of the GWAS-suggested BP-proteins (1065) form a connected binary PPI subnetwork. The BP interactome extension through the GWAS protein-connecting shortest paths identified 1443 intermediates as potentially BP-associated and indicated almost all of GWAS proteins as being at most second neighbours. The reconstructed interactome analysis indicated 106 significantly BP-associated proteins, while 253 were included in the network of the GWAS-prioritized and their common neighbors. The union of the three prioritization subsets includes 335 BP proteins, of which 211 belonging to the 1443 network-suggested, and 93% form a connected network. In the prioritized set, a protein is ranked higher based on the number of satisfied prioritization criteria. ESR1 satisfies all three prioritization criteria. The proteins following ESR1 are GWAS-prioritized and have common neighbors including INSR, PTN11, CDK6, CSK, NOS3, SH2B3, ATP2B1, FES and FINC. Pathway analysis of the extended BP-protein set indicated enrichment in numerous BP-associated bio-processes. Notably, most emerged as significant after the extended PPI network reconstruction, including HIF1-pathway. Some of the BP proteins are targets of anti-hypertensive drugs, and many are associated with other diseases among which diabetes and metabolic syndrome, neurological diseases, heart and kidney failure, and stroke. Indeed, integrated GWAS and PPI network analysis extends our knowledge about BP regulation. The proposed workflow implemented in the present thesis could be accordingly used for other multifactorial diseases, enriching the genotype-phenotype associations with additional data.
περισσότερα