Statistical methods for data mining in genomics databases: gene set enrichment analysis

Σε διάφορες εφαρμογές, όπως η έρευνα για τον καρκίνο, έχει ιδιαίτερο ενδιαφέρον ο εντοπισμός γονιδίων ή/και ομάδων γονιδίων με διαφορετική έκφραση. Αυτή η ανάγκη έχει οδηγήσει στην ανάπτυξη πολλών στατιστικών μεθόδων, προσαρμοσμένων στην επεξεργασία γονιδιωματικών δεδομένων. Αυτή η εργασία επικεντρώνεται σε μεθόδους σύγκρισης ενός διανύσματος αριθμητικών τιμών, όπως τα επίπεδα έκφρασης που συνδέονται με κάθε γονίδιο στο ανθρώπινο γονιδίωμα, με ένα δοθέν σύνολο γονιδίων, τα οποία είναι γνωστό ότι σχετίζονται, για παράδειγμα, με κάποιον τύπο καρκίνου, κυτταρική λειτουργία ή βιολογική διαδικασία. Μέθοδοι απόκτησης διανυσμάτων με αριθμητικά δεδομένα συζητούνται, και προτείνεται ένα σύνολο συναρτήσεων R που πραγματοποιούν τις κύριες λειτουργίες μορφοποίησης. Δίνεται μια επισκόπηση των στατιστικών ελέγχων που υπάρχουν, από την ανάλυση ενός γονιδίου έως την ανάλυση ενός συνόλου γονιδίων. Μεταξύ αυτών, το επονομαζόμενο Gene Set Enrichment Analysis (GSEA) είναι ίσως το πιο βασικό εργαλείο για την επεξεργασία γονιδιωματικών δεδομένων. Ωστόσο, από στατιστικής άποψης, το κεντράρισμα της στατιστικής συνάρτησης ελέγχου που χρησιμοποιεί δεν επιτρέπει την εξαγωγή ασυμπτωτικών αποτελεσμάτων. Επιπλέον, ο υπολογισμός των p-τιμών είναι μια πολύ χρονοβόρα και χαμηλής ακρίβειας διαδικασία. Προτείνεται μια στατιστική συνάρτηση ελέγχου με διαφορετικό κεντράρισμα. Κάτω από τη μηδενική υπόθεση, η σύγκλιση κατά κατανομή της νέας στατιστικής συνάρτησης αποδεικνύεται, χρησιμοποιώντας τη θεωρία των εμπειρικών διαδικασιών. Η οριακή κατανομή χρειάζεται να υπολογιστεί μόνο μία φορά και στη συνέχεια μπορεί να χρησιμοποιηθεί για τον υπολογισμό των p-τιμών για πολλά διαφορετικά σύνολα γονιδίων. Αυτό έχει ως αποτέλεσμα πολύ μεγάλη εξοικονόμηση υπολογιστικού χρόνου. Το τεστ που ορίζεται με αυτόν τον τρόπο έχει κληθεί Σταθμισμένo Kolmogorov Smirnov τεστ, καθώς μπορεί να θεωρηθεί ως γενίκευση του κλασικού Kolmogorov-Smirnov τεστ καλής προσαρμογής. Στη συνέχεια, αντιμετωπίζεται ένα διαφορετικό πρόβλημα: ο μεγάλος αριθμός ψευδών ανακαλύψεων από υπάρχουσες μεθόδους. Με βάση μια στατιστική μελέτη πολλών βάσεων δεδομένων συνόλων γονιδίων, σε συνδυασμό με μια άλλη μελέτη μεγάλου αριθμού διανυσμάτων έκφρασης, προτείνεται μια εξήγηση: η μηδενική υπόθεση στις υπάρχουσες μεθόδους, που είναι ότι όλα τα γονίδια έχουν την ίδια πιθανότητα να συμπεριληφθούν σε ένα σύνολο γονιδίων, απέχει πολύ από το να ισχύει στην πράξη. Προτείνεται μια γενίκευση του προηγούμενου στατιστικού ελέγχου, η οποία ονομάζεται Διπλά Σταθμισμένος Kolmogorov Smirnov έλεγχος: βασίζεται σε μια διαφορετική στάθμιση των γονιδίων, λαμβάνοντας υπόψη τις σχετικές τους συχνότητες σε πραγματικά δεδομένα. Οι δύο προτεινόμενοι έλεγχοι έχουν εφαρμοστεί τόσο σε προσομοιωμένα όσο και σε πραγματικά δεδομένα και συγκρίθηκαν με άλλες υπάρχουσες διαδικασίες. Χρησιμοποιώντας δεδομένα έκφρασης από το αποθετήριο GEO, που εξετάστηκαν ως προς τις βάσεις δεδομένων MSig, έγινε σύγκριση μεταξύ της μεθόδου GSEA και των νέων διαδικασιών. Το συμπέρασμά μας είναι ότι, πέρα από τα μαθηματικά και αλγοριθμικά πλεονεκτήματά τους, τα δύο τεστ θα μπορούσαν να είναι πιο πληροφοριακά σε πολλές περιπτώσεις από το κλασικό τεστ GSEA και να αντιμετωπίσουν αποτελεσματικά τα ζητήματα που οδήγησαν στην κατασκευή τους.

περισσότερα

Περίληψη σε άλλη γλώσσα

In different applications, such as cancer research, it is of particular interest to identify differentially expressed genes and/or groups of genes. This need has led to the development of many statistical methods, adapted to the treatment of genomic data. This work focuses on methods comparing a vector of numeric values, such as expression levels attached to each gene in the human genome, to a given set of genes, known to be associated for instance to some type of cancer, cellular function, or biological process. Acquisition methods for numeric data vectors are discussed, and a set of R functions realizing the main formatting operations is proposed. An overview of the existing statistical tests, from single-gene analysis to gene set analysis is given. Among those, Gene Set Enrichment Analysis (GSEA) is probably the most basic tool for genomic data treatment. However, from a statistical point of view, the centering of its test statistic does not allow the derivation of asymptotic results. Moreover, the calculation of p-values is a very time-consuming, low precision procedure. A test statistic with a different centering is proposed. Under the null hypothesis, the convergence in distribution of the new test statistic is proved, using the theory of empirical processes. The limiting distribution needs to be computed only once, and can then be used for computing the p-values of many different gene sets. This results in very large savings in computing time. The test defined in this way has been called Weighted Kolmogorov Smirnov (WKS) test, since it can be viewed as a generalization of the classical Kolmogorov-Smirnov goodness-of-fit test. Next, a different problem is addressed: the large number of false discoveries from existing methods. Based on a statistical study of several databases of gene sets, coupled with another study of a large number of expression vectors, an explanation is proposed: the null hypothesis of existing methods, which is that all genes have the same probability to be included in a gene set, is far from true in practice. A generalization of the WKS test, called Doubly Weighted Kolmogorov Smirnov (DWKS) test is proposed: it is based on a differential weighting of the genes, taking into account their relative frequencies in real data. The two tests (WKS and DWKS) have been applied both to simulated and real data, and compared with other existing procedures. Using expression data from the GEO repository, tested against the MSig Databases, a comparison between the GSEA test and the new procedures has been conducted. Our conclusion is that, beyond their mathematical and algorithmic advantages, the WKS and DWKS tests could be more informative in many cases, than the classical GSEA test and efficiently address the issues that have led to their construction.

περισσότερα

Περίληψη σε άλλη γλώσσα

Dans différents domaines d’application, tels que la cancérologie, il est crucial d’identifier des gènes ou des groupes de gènes, significativement sur- ou sous-exprimés. Ce besoin a conduit au développement de nombreuses méthodes statistiques, adaptées au traitement des données de génomique. Ce travail est centré sur les méthodes visant à comparer un vecteur de données numériques, telles que des niveaux d’expression liés à chacun des gènes du génome humain, à un ensemble donné de gènes, connus pour être associés par exemple à un type de cancer, à une fonction cellulaire, ou à un processus biologique. Les méthodes d’acquisition des vecteurs de données sont discutées, et un ensemble de fonctions R, réalisant les opérations de formatage principales, a été implémenté. Une revue des tests statistiques traitant les gènes individuellement ou par groupes, est proposée. Parmi ces méthodes, le test Gene Set Enrichment Analysis (GSEA) est probablement le plus largement utilisé pour le traitement des données de génomique. Néanmoins, du point de vue statistique, son centrage ne permet pas l’établissement de résultats asymptotiques. De plus, le calcul des p-valeurs est algorithmiquement coûteux, et peu précis. Une statistique de test centrée différemment est proposée. Sous l’hypothèse nulle, la convergence en loi de la nouvelle statistique de test est démontrée, en utilisant la théorie des processus empiriques. La loi limite est à calculer une seule fois, et peut ensuite être utilisée pour calculer la p-valeur d’ensembles de gènes différents. Ceci se traduit par une économie importante en temps de calcul. Le test ainsi défini est appelé test de Kolmogorov-Smirnov pondéré, car on peut le voir come une généralisation du test d’ajustement de Kolmogorov-Smirnov classique. Un autre problème est abordé: le grand nombre de fausses détections par les méthodes existantes. À partir d’une étude statistique de plusieurs bases de données d’ensembles de gènes, couplée à une autre étude sur un grand nombre de vecteurs d’expression, une explication est proposée: l’hypothèse nulle des méthodes existantes, qui stipule que tous les gènes ont la même probabilité d’être inclus dans un ensemble de gènes, est loin d’être vérifiée en pratique. Une généralisation du test précédent, baptisée test de Kolmogorov-Smirnov doublement pondéré, est proposée. Elle est basée sur une pondération des gènes, qui prend en compte leurs fréquences relatives dans les données réelles. Les deux tests ont été appliqués à des données simulées et réelles, et leurs résultats comparés aux procédures existantes. À partir de données cliniques de la base GEO, testées contre les ensembles de gènes MSig, une comparaison entre le test GSEA et les nouvelles procédures a été menée. Notre conclusion est que, au-delà leurs avantages mathématiques et algorithmiques, les tests proposés pourraient se révéler, dans de nombreux cas, plus informatifs que le test GSEA classique, et traiter efficacement les deux problèmes qui ont motivé leur construction.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (3.25 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/55672
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/55672
ND	55672
Εναλλακτικός τίτλος	Statistical methods for data mining in genomics databases: gene set enrichment analysis Méthodes statistiques pour la fouille de données dans les bases de données de génomique: gene set enrichment analysis
Συγγραφέας	Χαρμπή, Κωνσταντίνα (Πατρώνυμο: Παναγιώτης)
Ημερομηνία	2015
Ίδρυμα	Université Grenoble Alpes
Εξεταστική επιτροπή	Ycart Bernard Fournié Jean-Jacques Genon-Catalot Valentine Rousseaux Sophie Samson Adeline Van-Helden Jacques
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Μαθηματικά ➨ Στατιστική και Πιθανότητες
Λέξεις-κλειδιά	Γονιδιωματική; Εξόρυξη δεδομένων; Βάσεις δεδομένων; Έλεγχοι υποθέσεων
Χώρα	Γαλλία
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Functional investigation of NAT genes in bacteria and fungi of biotechnological interest

Το Switchgrass ως ενεργειακό φυτό: προσαρμοστικότητα στην Κεντρική Ελλάδα

Ανάπτυξη και θεμελίωση νέων μεθόδων υπολογιστικής νοημοσύνης, ευφυούς βελτιστοποίησης και εφαρμογές

"Στατιστικές μέθοδοι εξόρυξης δεδομένων σε βάσεις δεδομένων γονιδιωματικής: ανάλυση εμπλουτισμού συνόλων γονιδίων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .