Στατιστικές μέθοδοι πολυμεταβλητής ανάλυσης δεδομένων από βιολογικά κείμενα και οντολογίες

Περίληψη

Η διατριβή εντάσσεται στο γενικότερο χώρο της εξόρυξης και ανάλυσης πληροφοριών από βιολογικά κείμενα με χρήση στατιστικών μεθοδολογιών και αλγόριθμων. Ειδικότερα η έρευνα κινείται σε 3 άξονες, α) στην ανάθεση ενός όρου γονιδιακής οντολογίας σε ένα κείμενο με βάση μεθόδους και μοντέλα κατάταξης, όπως η Linear Discriminant Analysis LDA, Support Vector machines, SVM & H Multinomial Logistic Regressions MLR. H LDA αποδείχθηκε αποτελεσματικότερη, β) χρήση της Non Linear Canonical Correlation Analysis, NLCCA, για ποσοτικοποίηση της μη γραμμικής συσχέτισης μεταξύ των λέξεων των κειμένων, των όρων της γονιδιακής οντολογίας και των όρων της Medical Subject headings, MESH, Οντολογίας. Αντικατάσταση των τριών συνόλων με ένα νέο λιγότερων μεταβλητών, γ) μεθοδολογία ομαδοποίησης κειμένων με βάση το στοχαστικό αλγόριθμο Markov Clustering Algorithm, MCL και παράσταση των αποτελεσμάτων σε διαδραστικό 2Δ ή 3Δ περιβάλλον.

Περίληψη σε άλλη γλώσσα

The research involves text mining of biological texts using statistical methods of classification and clustering. The classification involves the use of Linear Discriminant Analysis, LDA, Support Vector Machines, SVA and Multinomial Logistic Regression, MLR, LDA was found to perform the best. Non Linear Canonical Correlation, Analysis, NLCCA was also used in order to describe the information of the words of the texts, their gene ontology and Medical Subject Headings with only one dataset, with reduced number of variables. The clustering was based on a stochastic algorithm, namely Markov clustering (MCL) and represented the results to the end user in a 2d or 3d environment.

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/18932
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/18932
ND
18932
Εναλλακτικός τίτλος
Statistical multivariate methods of analysis of data from biological texts and ontologies
Συγγραφέας
Θεοδοσίου, Θεοδόσιος (Πατρώνυμο: Γεώργιος)
Ημερομηνία
2008
Ίδρυμα
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής
Εξεταστική επιτροπή
Βακάλη Αθηνά
Αγγελής Ελευθέριος
Βλαχάβας Ιωάννης
Δαμιανού Χαράλαμπος
Θωμόπουλος Γεώργιος
Καρανίκας Κωνσταντίνος
Νικήτα Κωνσταντίνα
Επιστημονικό πεδίο
Φυσικές Επιστήμες
Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά
Στατιστική πολυμεταβλητή ανάλυση; Ομαδοποίηση; Κατηγοροποίηση; Βιολογικά κείμενα; Βιολογικές οντολογίες
Χώρα
Ελλάδα
Γλώσσα
Ελληνικά
Άλλα στοιχεία
191 σ., εικ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)