Περίληψη
Η ραγδαία ανάπτυξη των μεγάλων δεδομένων (big data) οφείλεται πρωτίστως στην εντεινόμενη ψηφιοποίηση της πληροφορίας και στη διευρυμένη χρήση συσκευών συλλογής δεδομένων. Καθώς οι τεχνολογικές εξελίξεις επιταχύνονται, ο όγκος, η ποικιλομορφία και η ταχύτητα παραγωγής δεδομένων αυξάνονται, διαμορφώνοντας το πεδίο της ανάλυσης μεγάλων δεδομένων (big data analytics), το οποίο στοχεύει στην εξαγωγή ουσιαστικής πληροφορίας από εκτεταμένα σύνολα δεδομένων. Ο ολοένα αυξανόμενος όγκος δεδομένων συνεπάγεται σημαντικές ευκαιρίες, αλλά ταυτόχρονα εισάγει και ουσιώδεις μεθοδολογικές και υπολογιστικές προκλήσεις. Στο πλαίσιο της Στατιστικής Παρακολούθησης Διεργασιών (Statistical Process Monitoring -- SPM), η ανάλυση δεδομένων υψηλής διαστατικότητας συχνά οδηγεί στο φαινόμενο της «κατάρας της διαστατικότητας» (curse of dimensionality), όπου η αραιότητα των δεδομένων (data sparsity) δυσχεραίνει την ανίχνευση ουσιωδών προτύπων και ανωμαλιών. Επιπροσθέτως, η παρακολούθηση πολύπλοκων αλληλεξαρτήσεω ...
Η ραγδαία ανάπτυξη των μεγάλων δεδομένων (big data) οφείλεται πρωτίστως στην εντεινόμενη ψηφιοποίηση της πληροφορίας και στη διευρυμένη χρήση συσκευών συλλογής δεδομένων. Καθώς οι τεχνολογικές εξελίξεις επιταχύνονται, ο όγκος, η ποικιλομορφία και η ταχύτητα παραγωγής δεδομένων αυξάνονται, διαμορφώνοντας το πεδίο της ανάλυσης μεγάλων δεδομένων (big data analytics), το οποίο στοχεύει στην εξαγωγή ουσιαστικής πληροφορίας από εκτεταμένα σύνολα δεδομένων. Ο ολοένα αυξανόμενος όγκος δεδομένων συνεπάγεται σημαντικές ευκαιρίες, αλλά ταυτόχρονα εισάγει και ουσιώδεις μεθοδολογικές και υπολογιστικές προκλήσεις. Στο πλαίσιο της Στατιστικής Παρακολούθησης Διεργασιών (Statistical Process Monitoring -- SPM), η ανάλυση δεδομένων υψηλής διαστατικότητας συχνά οδηγεί στο φαινόμενο της «κατάρας της διαστατικότητας» (curse of dimensionality), όπου η αραιότητα των δεδομένων (data sparsity) δυσχεραίνει την ανίχνευση ουσιωδών προτύπων και ανωμαλιών. Επιπροσθέτως, η παρακολούθηση πολύπλοκων αλληλεξαρτήσεων μεταξύ πολλών μεταβλητών καθιστά ανεπαρκείς τις παραδοσιακές μονομεταβλητές προσεγγίσεις και επιβάλλει την υιοθέτηση προηγμένων μεθόδων. Η Πολυμεταβλητή Στατιστική Παρακολούθηση Διεργασιών (Multivariate Statistical Process Monitoring -- MSPM) ανταποκρίνεται σε αυτή την ανάγκη μέσω της χρήσης εργαλείων όπως τα πολυμεταβλητά διαγράμματα ελέγχου και ειδικότερα το διάγραμμα T² του Hotelling, το οποίο αποτυπώνει τη συλλογική συμπεριφορά συσχετισμένων μεταβλητών ποιότητας. Η εφαρμογή τέτοιων διαγραμμάτων σε περιβάλλοντα πραγματικού χρόνου και υψηλής διαστατικότητας συνοδεύεται από ιδιαίτερες δυσκολίες, οι οποίες απορρέουν από τις αυξημένες υπολογιστικές απαιτήσεις και την ανάγκη ταχείας λήψης αποφάσεων (decision-making) κατά την επεξεργασία εκτεταμένων ροών δεδομένων (data streams). Μια δυνητική κατεύθυνση αντιμετώπισης των δυσκολιών αυτών είναι ο συνδυασμός των παραδοσιακών τεχνικών MSPM με σύγχρονες μεθόδους μηχανικής μάθησης, με στόχο την ενίσχυση της προσαρμοστικότητας και της ανιχνευτικής ικανότητας των συστημάτων παρακολούθησης διεργασιών. Ωστόσο, η ενοποίηση των δύο πλαισίων εγείρει κρίσιμα ζητήματα, όπως η ερμηνευσιμότητα των υπο-δειγμάτων, η επιλογή κατάλληλων χαρακτηριστικών και η συνεκτική ενσωμάτωση των αποτελεσμάτων σε διαδικασίες λήψης αποφάσεων. Στην παρούσα διατριβή προτείνεται μια σύγχρονη και ανθεκτική μέθοδος πολυμεταβλητής παρακολούθησης διεργασιών, η οποία εμπνέεται από τεχνικές δεικτών εγκυρότητας συστάδων (cluster validity indexing techniques). Η απόδοση της προτεινόμενης μεθόδου αξιολογείται και συγκρίνεται τόσο με τα κλασικά πολυμεταβλητά διαγράμματα ελέγχου που βασίζονται στη στατιστική T² του Hotelling, όσο και με μία σειρά δεικτών που προέρχονται από το πεδίο της ανάλυσης συστάδων, όπως οι δείκτες Dunn, Silhouette, Calinski--Harabasz και Davies--Bouldin. Εκτενείς μελέτες προσομοίωσης καταδεικνύουν ότι η προτεινόμενη προσέγγιση υπερτερεί των υφιστάμενων μεθόδων, ιδίως σε σενάρια ολίσθησης του μέσου (mean drifting) και μεταβολών που σχετίζονται με την πυκνότητα, όταν εξετάζονται ροές δεδομένων με ισχυρά συσχετισμένα χαρακτηριστικά. Τέλος, παρουσιάζονται ενδεικτικές εφαρμογές σε πραγματικά προβλήματα, στις οποίες αξιοποιούνται συνδυαστικά στατιστικές τεχνικές και τεχνικές μηχανικής μάθησης, αναδεικνύοντας τη χρηστικότητα της προτεινόμενης μεθοδολογίας σε πρακτικά περιβάλλοντα. Από τις μελέτες προσομοίωσης έως τις εφαρμογές σε πραγματικά δεδομένα, η διατριβή επιδιώκει να γεφυρώσει τις έννοιες της στατιστικής και της μηχανικής μάθησης, με τη δεύτερη να αντλεί εργαλεία και μεθοδολογίες από την πρώτη, διαμορφώνοντας ένα ενοποιημένο πλαίσιο για τη στατιστική παρακολούθηση διεργασιών σε συνθήκες μεγάλων δεδομένων.
περισσότερα
Περίληψη σε άλλη γλώσσα
The growth of big data is primarily driven by the increasing digitization of information and the widespread use of data-collecting devices. As technological advancements continue, the volume, variety, and velocity of data generation expand, giving rise to big data analytics aimed at extracting valuable insights from vast datasets. The growing volume of data presents both opportunities and significant challenges. In the realm of Statistical Process Monitoring (SPM), the analysis of high-dimensional data often leads to the “curse of dimensionality”, where data sparsity hinders the detection of meaningful patterns and anomalies. Additionally, monitoring complex relationships among multiple variables requires more advanced methods than traditional univariate approaches. Multivariate Statistical Process Monitoring (MSPM) addresses this need by employing tools such as multivariate control charts, notably the Hotelling’s T² chart, to capture the joint behavior of correlated quality varia ...
The growth of big data is primarily driven by the increasing digitization of information and the widespread use of data-collecting devices. As technological advancements continue, the volume, variety, and velocity of data generation expand, giving rise to big data analytics aimed at extracting valuable insights from vast datasets. The growing volume of data presents both opportunities and significant challenges. In the realm of Statistical Process Monitoring (SPM), the analysis of high-dimensional data often leads to the “curse of dimensionality”, where data sparsity hinders the detection of meaningful patterns and anomalies. Additionally, monitoring complex relationships among multiple variables requires more advanced methods than traditional univariate approaches. Multivariate Statistical Process Monitoring (MSPM) addresses this need by employing tools such as multivariate control charts, notably the Hotelling’s T² chart, to capture the joint behavior of correlated quality variables. However, implementing these control charts in real-time, high-dimensional settings is particularly difficult due to the computational demands and the need for rapid decision-making when processing large streams of data. A potential solution is to combine traditional MSPM techniques with modern machine learning approaches; even so, this integration poses challenges related to model interpretability, feature selection, and result integration. In this study, a modern and robust method inspired by cluster validity indexing techniques is presented. This method is compared to the traditional multivariate control charts based on the Hotelling T² statistic, as well as to other metrics from the cluster analysis framework, such as the Dunn, Silhouette, Calinski-Harabasz, and Davies-Bouldin indices. Extensive simulation studies demonstrate that the proposed method outperforms existing approaches, particularly in scenarios such as mean drifting and density-related changes, involving data streams with correlated features. At the conclusion, various real-world application scenarios utilizing statistical and machine learning techniques are presented. Ranging from simulations to practical applications, this dissertation seeks to bridge the concepts of statistics and machine learning, with the latter inheriting tools and methodologies from the former.
περισσότερα