Περίληψη
Η Πολυδιάστατη Ανάλυση Δεδομένων αποτελεί «ακρογωνιαίο λίθο» της Ανάλυσης Δεδομένων. Στο πλαίσιο αυτό, οι κύβοι δεδομένων είναι p-διάστατες δομές δεδομένων, όπου το p≥3. Η παρούσα διατριβή εστιάζει αποκλειστικά σε κύβους δεδομένων με ανεξάρτητες «φέτες». Η κατανόηση της σύστασης και των τρόπων διαχείρισης των κύβων, αποτελεί εφαλτήριο για την ανάπτυξη εναλλακτικών μεθοδολογικών προσεγγίσεων στην ανάλυση δεδομένων μικρού και μεγάλου όγκου, πέραν των κλασικών μεθόδων μείωσης των διαστάσεων και ταξινόμησης-συσταδοποίησης. Για αυτό, βασικός στόχος της παρούσας διδακτορικής διατριβής είναι η πρόταση νέων ιδεών, σχετικών με την ανάδειξη στρατηγικών μείωσης των διαστάσεων και ταξινόμησης-συσταδοποίησης των κύβων, οι οποίες θα αποτελέσουν σημαντικά εναλλακτικά εργαλεία ανάλυσης των δεδομένων. Παράλληλα επιδιώκεται η ανάδειξη της σημαντικότητας εφαρμογής διαφορετικών στρατηγικών μείωσης των διαστάσεων και ταξινόμησης-συσταδοποίησης των κύβων, αλλά και των διαφορετικών τρόπων διαχείρισης ενός συ ...
Η Πολυδιάστατη Ανάλυση Δεδομένων αποτελεί «ακρογωνιαίο λίθο» της Ανάλυσης Δεδομένων. Στο πλαίσιο αυτό, οι κύβοι δεδομένων είναι p-διάστατες δομές δεδομένων, όπου το p≥3. Η παρούσα διατριβή εστιάζει αποκλειστικά σε κύβους δεδομένων με ανεξάρτητες «φέτες». Η κατανόηση της σύστασης και των τρόπων διαχείρισης των κύβων, αποτελεί εφαλτήριο για την ανάπτυξη εναλλακτικών μεθοδολογικών προσεγγίσεων στην ανάλυση δεδομένων μικρού και μεγάλου όγκου, πέραν των κλασικών μεθόδων μείωσης των διαστάσεων και ταξινόμησης-συσταδοποίησης. Για αυτό, βασικός στόχος της παρούσας διδακτορικής διατριβής είναι η πρόταση νέων ιδεών, σχετικών με την ανάδειξη στρατηγικών μείωσης των διαστάσεων και ταξινόμησης-συσταδοποίησης των κύβων, οι οποίες θα αποτελέσουν σημαντικά εναλλακτικά εργαλεία ανάλυσης των δεδομένων. Παράλληλα επιδιώκεται η ανάδειξη της σημαντικότητας εφαρμογής διαφορετικών στρατηγικών μείωσης των διαστάσεων και ταξινόμησης-συσταδοποίησης των κύβων, αλλά και των διαφορετικών τρόπων διαχείρισης ενός συνόλου δεδομένων, με κριτήρια τη σύστασή του και τους στόχους της εκάστοτε μελέτης. Υπάρχουν δύο βασικές μεθοδολογικές προσεγγίσεις ανάλυσης των κύβων. Η πρώτη στηρίζεται στην ανάλυση του κύβου ως διδιάστατου συνόλου δεδομένων μικτού τύπου, στο οποίο οι «φέτες» θεωρούνται επιπρόσθετες κατηγορικές μεταβλητές. Η δεύτερη στηρίζεται στην ανάλυση του κύβου δεδομένων ως πίνακα «στοίβα» (μετά από κατακόρυφη «συνένωση»), στον οποίο οι «φέτες» και οι «υπερ-φέτες» δεν χάνουν τον εννοιολογικό και δομικό τους ρόλο. Στο πλαίσιο της πρώτης μεθοδολογικής προσέγγισης πραγματοποιείται εφαρμογή και σύγκριση των κλασικών μεθόδων Ανάλυση σε Κύριες Συνιστώσες, Παραγοντική Ανάλυση, Παραγοντική Ανάλυση των Πολλαπλών Αντιστοιχιών, Μη γραμμική Κατηγορική Ανάλυση σε Κύριες Συνιστώσες με βέλτιστη κλιμακοποίηση μέσω της μεθόδου Εναλλασσόμενων Ελαχίστων Τετραγώνων, και Παραγοντική Ανάλυση για Μικτού Τύπου Δεδομένα, υπό διαφορετικούς συνδυασμούς συστημάτων κωδικοποίησης και μετατροπής των δεδομένων, καθώς και κριτηρίων εξαγωγής των σημαντικότερων παραγοντικών αξόνων. Επιπλέον, πραγματοποιείται σύγκριση των στατιστικών λογισμικών IBM SPSS Statistics, R και Python, ως προς τους χρόνους εξαγωγής των αποτελεσμάτων. Στο πλαίσιο της δεύτερης μεθοδολογικής προσέγγισης πραγματοποιείται εφαρμογή και σύγκριση 13 στρατηγικών μείωσης των διαστάσεων σε τριδιάστατους κύβους, με βάση την Ανάλυση σε Κύριες Συνιστώσες, η οποία αποτελεί βασική μέθοδος της Ανάλυσης Δεδομένων και προ-παρασκευαστικό στάδιο της Μηχανικής Μάθησης. Ορισμένες στρατηγικές βασίζονται στην ιδέα της διαμέρισης της συνολικής μεταβλητότητας του κύβου σε μεταβλητότητα μεταξύ των «φετών» και σε μεταβλητότητα εντός των «φετών» του κύβου. Κάποιες άλλες στρατηγικές είτε αρχικώς αγνοούν την επίδραση των «φετών» στη δομή και στις συνιστώσες της μεταβλητότητας και την εισάγουν σε δεύτερο επίπεδο, είτε αγνοούν πλήρως την επίδραση των «φετών» στη δομή και στις συνιστώσες της μεταβλητότητας, είτε λαμβάνουν υπόψη την επίδραση των «φετών» στη δομή και στις συνιστώσες της μεταβλητότητας, μέσω διαφορετικής κωδικοποίησης της μεταβλητής των «φετών». Επίσης, στο πλαίσιο της δεύτερης μεθοδολογικής προσέγγισης πραγματοποιείται πρόταση και εφαρμογή μιας εναλλακτικής στρατηγικής μείωσης των διαστάσεων σε τετραδιάστατους κύβους, με βάση την Ανάλυση σε Κύριες Συνιστώσες. Η στρατηγική βασίζεται στην ιδέα της διαμέρισης της συνολικής μεταβλητότητας του κύβου σε μεταβλητότητα μεταξύ των «φετών», μεταβλητότητα μεταξύ των «υπερ-φετών», μεταβλητότητα της αλληλεπίδρασης μεταξύ των «φετών» και των «υπερ-φετών» και σε μεταβλητότητα εντός των «φετών» και των «υπερ-φετών» του κύβου. Συμπληρωματικά των ανωτέρω μεθοδολογικών προσεγγίσεων, προτείνονται στρατηγικές ταξινόμησης-συσταδοποίησης που ποικίλουν ως προς την επιλογή του πίνακα αποστάσεων και τη μέθοδο συνένωσης (σύνδεσης). Για την εφαρμογή όλων των προτεινόμενων στρατηγικών χρησιμοποιούνται τα πραγματικά σύνολα δεδομένων «Forest Cover Type», «Iris Plants», «ADONUT» και «Basil», από τον ευρύτερο χώρο των βιολογικών επιστημών, καθώς και τα προσομοιωμένα σύνολα δεδομένων μεγαλύτερου όγκου «Basil-Sim 1» και «Basil-Sim 2». Για τη δημιουργία των προσομοιωμένων συνόλων δεδομένων, παρέχετε κώδικα στην Python, ενώ για την εφαρμογή των προτεινόμενων στρατηγικών ανάλυσης, παρέχετε κώδικας στο στατιστικό λογισμικό IBM SPSS Statistics, καθώς και στις γλώσσες προγραμματισμού R και Python. Συμπερασματικά, οι συγκρίσεις αναδεικνύουν τα πλεονεκτήματα και τα μειονεκτήματα των προτεινόμενων στρατηγικών, καθώς και τα πλεονεκτήματα και τις υπολογιστικές αδυναμίες και δυσκολίες των στατιστικών λογισμικών. Επιπλέον, αναδεικνύεται η συμβολή ή μη των «φετών» ή/και «υπερ-φετών» στη δομή των κύβων δεδομένων, καθώς και το γεγονός ότι δεν υπάρχει μία καθολική μέθοδος μείωσης των μαθηματικών διαστάσεων και ταξινόμησης-συσταδοποίησης για τους στόχους κάθε μελέτης. Συνεπώς, η εφαρμογή πολλών και διαφορετικών στρατηγικών ανάλυσης κρίνεται αναγκαία, προκειμένου να αυξάνεται το εύρος εφαρμογών κάθε μεθόδου και να εξάγονται περισσότερο αξιοποιήσιμα αποτελέσματα. Η συμβολή των προτεινόμενων στρατηγικών στην επιστημονική κοινότητα κρίνεται σημαντική, επειδή αποτελούν εναλλακτικά εργαλεία διαχείρισης και ανάλυσης των δεδομένων που προσαρμόζονται ανάλογα με τους στόχους της εκάστοτε μελέτης και τα παρατηρούμενα δεδομένα. Η παρούσα διατριβή αποτελεί εφαλτήριο για περαιτέρω έρευνα και ανάπτυξη νέων ή/και εναλλακτικών στρατηγικών ανάλυσης και διαχείρισης των δεδομένων.
περισσότερα
Περίληψη σε άλλη γλώσσα
Multidimensional Data Analysis is a "cornerstone" of Data Analysis. In this context, data cubes are p-dimensional data structures, where p≥3. This thesis focuses exclusively on data cubes with independent "slices". Understanding the structure and management of cubes is a springboard for the development of alternative methodological approaches to small and big data analysis, beyond the classical methods of dimensionality reduction and clustering. Therefore, the main objective of this doctoral thesis is to propose new ideas related to the development of data cube dimensionality reduction and clustering strategies, providing researchers with important alternative tools for data analysis. At the same time, it seeks to highlight the importance of applying different dimensionality reduction and clustering strategies for data cubes, as well as different ways of managing a dataset, based on its structure and the objectives of each study. There are two basic methodological approaches for analyz ...
Multidimensional Data Analysis is a "cornerstone" of Data Analysis. In this context, data cubes are p-dimensional data structures, where p≥3. This thesis focuses exclusively on data cubes with independent "slices". Understanding the structure and management of cubes is a springboard for the development of alternative methodological approaches to small and big data analysis, beyond the classical methods of dimensionality reduction and clustering. Therefore, the main objective of this doctoral thesis is to propose new ideas related to the development of data cube dimensionality reduction and clustering strategies, providing researchers with important alternative tools for data analysis. At the same time, it seeks to highlight the importance of applying different dimensionality reduction and clustering strategies for data cubes, as well as different ways of managing a dataset, based on its structure and the objectives of each study. There are two basic methodological approaches for analyzing data cubes. The first is based on analyzing the data cube as a two-dimensional mixed-type dataset, in which the "slices" are considered additional categorical variables. The second is based on analyzing the data cube as a "stacked" data matrix (after vertical concatenation), in which the "slices" and "hyper-slices" do not lose their conceptual and structural role. Within the framework of the first methodological approach, the classic methods Principal Components Analysis (PCA), Factor Analysis, Multiple Correspondence Analysis, Non-Linear Categorical Principal Components Analysis with optimal scaling, and Factor Analysis for Mixed Data are applied and compared under different combinations of data encoding and conversion systems, as well as criteria for extracting the most important factorial axes. In addition, a comparison of the statistical software IBM SPSS Statistics, R, and Python is carried out in terms of the results extraction times. Within the framework of the second methodological approach, 13 dimensionality reduction strategies are applied and compared on three-dimensional cubes, based on PCA, which is an important Data Analysis method and pre-processing stage of Machine Learning. Some strategies are based on the idea of decomposing the total variability of the cube into variability between-"slices" and variability within-"slices" of the cube. Some other strategies either initially ignore the effect of "slices" on the structure and components of variability and introduce it at a second level, or completely ignore the effect of "slices" on the structure and components of variability, or take into account the effect of "slices" on the structure and components of variability through different coding of the "slices" variable. Within the framework of the second methodological approach, an alternative dimensionality reduction strategy on four-dimensional cubes is also proposed and implemented, based on PCA. The strategy is based on the idea of decomposing the total variability of the cube into variability between-"slices", variability between-"hyper-slices", interaction variability between "slices" and "hyper-slices", and variability within "slices" and "hyper-slices". In addition to the above methodological approaches, clustering strategies are proposed that vary in terms of the chosen distance matrix and linkage method. To implement all the proposed strategies, the real datasets "Forest Cover Type", "Iris Plants", "ADONUT" and "Basil" from the broader field of biological sciences, as well as the larger simulated datasets "Basil-Sim 1" and "Basil-Sim 2" are used. Python code for creating the simulated datasets, as well as code for implementing the proposed analysis strategies in IBM SPSS Statistics, R, and Python is provided. In conclusion, the comparisons highlight the advantages and disadvantages of the proposed strategies, as well as the advantages and computational weaknesses and difficulties of statistical software. In addition, the contribution or non-contribution of "slices" and/or "hyper-slices" in the structure of the data cubes is highlighted, as well as the fact that there is not a "global" method of dimensionality reduction and clustering for the objectives of each study. Therefore, it is considered necessary to apply many different analysis strategies in order to increase the range of applications of each method and to extract more useful results. The contribution of the proposed strategies to the scientific community is considered significant because they constitute alternative tools for data management and analysis, which can be adapted according to the objectives of each study and the observed data. This thesis aims to serve as a springboard for further research and development of new and/or alternative data analysis and management strategies.
περισσότερα