Real-Time monitoring of data streams using machine learning techniques for optimizing decision making

Η ραγδαία ανάπτυξη των μεγάλων δεδομένων (big data) οφείλεται πρωτίστως στην εντεινόμενη ψηφιοποίηση της πληροφορίας και στη διευρυμένη χρήση συσκευών συλλογής δεδομένων. Καθώς οι τεχνολογικές εξελίξεις επιταχύνονται, ο όγκος, η ποικιλομορφία και η ταχύτητα παραγωγής δεδομένων αυξάνονται, διαμορφώνοντας το πεδίο της ανάλυσης μεγάλων δεδομένων (big data analytics), το οποίο στοχεύει στην εξαγωγή ουσιαστικής πληροφορίας από εκτεταμένα σύνολα δεδομένων. Ο ολοένα αυξανόμενος όγκος δεδομένων συνεπάγεται σημαντικές ευκαιρίες, αλλά ταυτόχρονα εισάγει και ουσιώδεις μεθοδολογικές και υπολογιστικές προκλήσεις. Στο πλαίσιο της Στατιστικής Παρακολούθησης Διεργασιών (Statistical Process Monitoring -- SPM), η ανάλυση δεδομένων υψηλής διαστατικότητας συχνά οδηγεί στο φαινόμενο της «κατάρας της διαστατικότητας» (curse of dimensionality), όπου η αραιότητα των δεδομένων (data sparsity) δυσχεραίνει την ανίχνευση ουσιωδών προτύπων και ανωμαλιών. Επιπροσθέτως, η παρακολούθηση πολύπλοκων αλληλεξαρτήσεων μεταξύ πολλών μεταβλητών καθιστά ανεπαρκείς τις παραδοσιακές μονομεταβλητές προσεγγίσεις και επιβάλλει την υιοθέτηση προηγμένων μεθόδων. Η Πολυμεταβλητή Στατιστική Παρακολούθηση Διεργασιών (Multivariate Statistical Process Monitoring -- MSPM) ανταποκρίνεται σε αυτή την ανάγκη μέσω της χρήσης εργαλείων όπως τα πολυμεταβλητά διαγράμματα ελέγχου και ειδικότερα το διάγραμμα T² του Hotelling, το οποίο αποτυπώνει τη συλλογική συμπεριφορά συσχετισμένων μεταβλητών ποιότητας. Η εφαρμογή τέτοιων διαγραμμάτων σε περιβάλλοντα πραγματικού χρόνου και υψηλής διαστατικότητας συνοδεύεται από ιδιαίτερες δυσκολίες, οι οποίες απορρέουν από τις αυξημένες υπολογιστικές απαιτήσεις και την ανάγκη ταχείας λήψης αποφάσεων (decision-making) κατά την επεξεργασία εκτεταμένων ροών δεδομένων (data streams). Μια δυνητική κατεύθυνση αντιμετώπισης των δυσκολιών αυτών είναι ο συνδυασμός των παραδοσιακών τεχνικών MSPM με σύγχρονες μεθόδους μηχανικής μάθησης, με στόχο την ενίσχυση της προσαρμοστικότητας και της ανιχνευτικής ικανότητας των συστημάτων παρακολούθησης διεργασιών. Ωστόσο, η ενοποίηση των δύο πλαισίων εγείρει κρίσιμα ζητήματα, όπως η ερμηνευσιμότητα των υπο-δειγμάτων, η επιλογή κατάλληλων χαρακτηριστικών και η συνεκτική ενσωμάτωση των αποτελεσμάτων σε διαδικασίες λήψης αποφάσεων. Στην παρούσα διατριβή προτείνεται μια σύγχρονη και ανθεκτική μέθοδος πολυμεταβλητής παρακολούθησης διεργασιών, η οποία εμπνέεται από τεχνικές δεικτών εγκυρότητας συστάδων (cluster validity indexing techniques). Η απόδοση της προτεινόμενης μεθόδου αξιολογείται και συγκρίνεται τόσο με τα κλασικά πολυμεταβλητά διαγράμματα ελέγχου που βασίζονται στη στατιστική T² του Hotelling, όσο και με μία σειρά δεικτών που προέρχονται από το πεδίο της ανάλυσης συστάδων, όπως οι δείκτες Dunn, Silhouette, Calinski--Harabasz και Davies--Bouldin. Εκτενείς μελέτες προσομοίωσης καταδεικνύουν ότι η προτεινόμενη προσέγγιση υπερτερεί των υφιστάμενων μεθόδων, ιδίως σε σενάρια ολίσθησης του μέσου (mean drifting) και μεταβολών που σχετίζονται με την πυκνότητα, όταν εξετάζονται ροές δεδομένων με ισχυρά συσχετισμένα χαρακτηριστικά. Τέλος, παρουσιάζονται ενδεικτικές εφαρμογές σε πραγματικά προβλήματα, στις οποίες αξιοποιούνται συνδυαστικά στατιστικές τεχνικές και τεχνικές μηχανικής μάθησης, αναδεικνύοντας τη χρηστικότητα της προτεινόμενης μεθοδολογίας σε πρακτικά περιβάλλοντα. Από τις μελέτες προσομοίωσης έως τις εφαρμογές σε πραγματικά δεδομένα, η διατριβή επιδιώκει να γεφυρώσει τις έννοιες της στατιστικής και της μηχανικής μάθησης, με τη δεύτερη να αντλεί εργαλεία και μεθοδολογίες από την πρώτη, διαμορφώνοντας ένα ενοποιημένο πλαίσιο για τη στατιστική παρακολούθηση διεργασιών σε συνθήκες μεγάλων δεδομένων.

περισσότερα

Περίληψη σε άλλη γλώσσα

The growth of big data is primarily driven by the increasing digitization of information and the widespread use of data-collecting devices. As technological advancements continue, the volume, variety, and velocity of data generation expand, giving rise to big data analytics aimed at extracting valuable insights from vast datasets. The growing volume of data presents both opportunities and significant challenges. In the realm of Statistical Process Monitoring (SPM), the analysis of high-dimensional data often leads to the “curse of dimensionality”, where data sparsity hinders the detection of meaningful patterns and anomalies. Additionally, monitoring complex relationships among multiple variables requires more advanced methods than traditional univariate approaches. Multivariate Statistical Process Monitoring (MSPM) addresses this need by employing tools such as multivariate control charts, notably the Hotelling’s T² chart, to capture the joint behavior of correlated quality variables. However, implementing these control charts in real-time, high-dimensional settings is particularly difficult due to the computational demands and the need for rapid decision-making when processing large streams of data. A potential solution is to combine traditional MSPM techniques with modern machine learning approaches; even so, this integration poses challenges related to model interpretability, feature selection, and result integration. In this study, a modern and robust method inspired by cluster validity indexing techniques is presented. This method is compared to the traditional multivariate control charts based on the Hotelling T² statistic, as well as to other metrics from the cluster analysis framework, such as the Dunn, Silhouette, Calinski-Harabasz, and Davies-Bouldin indices. Extensive simulation studies demonstrate that the proposed method outperforms existing approaches, particularly in scenarios such as mean drifting and density-related changes, involving data streams with correlated features. At the conclusion, various real-world application scenarios utilizing statistical and machine learning techniques are presented. Ranging from simulations to practical applications, this dissertation seeks to bridge the concepts of statistics and machine learning, with the latter inheriting tools and methodologies from the former.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (11.63 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/61310
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/61310
ND	61310
Εναλλακτικός τίτλος	Real-Time monitoring of data streams using machine learning techniques for optimizing decision making
Συγγραφέας	Σκαρλάτος, Κυριάκος (Πατρώνυμο: Δημήτριος)
Ημερομηνία	03/2026
Ίδρυμα	Πανεπιστήμιο Πειραιώς. Τμήμα Οργάνωσης και Διοίκησης Επιχειρήσεων
Εξεταστική επιτροπή	Μπερσίμης Σωτήριος Μαραβελάκης Πέτρος Οικονόμου Πολυχρόνης Σφακιανάκης Μιχαήλ Γεωργακέλλος Δημήτριος Ζερβόπουλος Παναγιώτης Σαχλάς Αθανάσιος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη Φυσικές Επιστήμες ➨ Μαθηματικά ➨ Στατιστική και Πιθανότητες
Λέξεις-κλειδιά	Ροές δεδομένων / Δυναμικά περιβάλλοντα; Έλεγχος διεργασιών; Μηχανική μάθηση; Monte Carlo προσομοίωση; Συσταδοποίηση; Λήψη αποφάσεων
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., χαρτ., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

An agent – based modelling platform for financial crisis simulation

Consumer choice, market concentration, and wealth distribution in connected and disconnected economic structures: an agent-based modeling approach

"Παρακολούθηση ροών δεδομένων σε πραγματικό χρόνο με τη χρήση τεχνικών μηχανικής μάθησης για τη βελτιστοποίηση της λήψης αποφάσεων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .