Περίληψη
Η Επιστήμη Δεδομένων (Data Science – DS) αποτελεί θεμελιώδη πυλώνα σε όλους τους βιομηχανικούς κλάδους, καθώς οι επιχειρήσεις βασίζονται σήμερα περισσότερο από ποτέ σε πληροφορίες που προκύπτουν από ανάλυση δεδομένων για τη λήψη αποφάσεων. Ποικίλες μεθοδολογίες εφαρμόζονται στα δεδομένα της βιομηχανίας, συχνά με πολλαπλές παραλλαγές, με στόχο την εξαγωγή πολύτιμων γνώσεων που μπορούν να μεταφραστούν από τα αντίστοιχα ενδιαφερόμενα μέρη σε εφαρμόσιμες επιχειρηματικές αποφάσεις. Ωστόσο, οι τεχνολογικές εξελίξεις και οι ερευνητικές καινοτομίες καθιστούν αναγκαία τη διερεύνηση νέων μεθοδολογιών, προκειμένου να ενισχυθεί η πρόοδος στην έρευνα γύρω από την Επιστήμη Δεδομένων (DS), την Εξόρυξη Δεδομένων (Data Mining – DM) και τη Μηχανική Μάθηση (Machine Learning – ML) με εφαρμογές σε πραγματικά επιχειρησιακά δεδομένα. Η παρούσα διατριβή αποσκοπεί στη διερεύνηση τριών βασικών πυλώνων και στην εισαγωγή μεθόδων που έχουν σχεδιαστεί ώστε να βελτιώσουν τις εφαρμογές της DS και της DM σε επιχειρημα ...
Η Επιστήμη Δεδομένων (Data Science – DS) αποτελεί θεμελιώδη πυλώνα σε όλους τους βιομηχανικούς κλάδους, καθώς οι επιχειρήσεις βασίζονται σήμερα περισσότερο από ποτέ σε πληροφορίες που προκύπτουν από ανάλυση δεδομένων για τη λήψη αποφάσεων. Ποικίλες μεθοδολογίες εφαρμόζονται στα δεδομένα της βιομηχανίας, συχνά με πολλαπλές παραλλαγές, με στόχο την εξαγωγή πολύτιμων γνώσεων που μπορούν να μεταφραστούν από τα αντίστοιχα ενδιαφερόμενα μέρη σε εφαρμόσιμες επιχειρηματικές αποφάσεις. Ωστόσο, οι τεχνολογικές εξελίξεις και οι ερευνητικές καινοτομίες καθιστούν αναγκαία τη διερεύνηση νέων μεθοδολογιών, προκειμένου να ενισχυθεί η πρόοδος στην έρευνα γύρω από την Επιστήμη Δεδομένων (DS), την Εξόρυξη Δεδομένων (Data Mining – DM) και τη Μηχανική Μάθηση (Machine Learning – ML) με εφαρμογές σε πραγματικά επιχειρησιακά δεδομένα. Η παρούσα διατριβή αποσκοπεί στη διερεύνηση τριών βασικών πυλώνων και στην εισαγωγή μεθόδων που έχουν σχεδιαστεί ώστε να βελτιώσουν τις εφαρμογές της DS και της DM σε επιχειρηματικά περιβάλλοντα. Για την εξέταση και επίδειξη αυτών των μεθόδων, εφαρμόστηκαν σε πραγματικά επιχειρησιακά δεδομένα από διάφορους τομείς, συγκεκριμένα από δεδομένα καλαθοσφαίρισης, δεδομένα χρηματοοικονομικών μετοχών και δεδομένα που σχετίζονται με την ενέργεια. Τα κύρια ερευνητικά ερωτήματα της παρούσας εργασίας επικεντρώνονται στη διερεύνηση, εισαγωγή και παρουσίαση προηγμένων μεθόδων για την εφαρμογή τεχνικών DS και DM σε πραγματικά επιχειρησιακά δεδομένα, συμπεριλαμβανομένων στρατηγικών για την ανάκτηση δεδομένων. Η διατριβή εισάγει καινοτόμες προσεγγίσεις μοντελοποίησης ML, νέους επιχειρησιακά προσανατολισμένους Δείκτες Απόδοσης (Key Performance Indicators – KPIs) για την αξιολόγηση μεθόδων, νέες μεθόδους αξιολόγησης ML βασισμένες στα θεμελιώδη της DS, προηγμένες τεχνικές για τον εντοπισμό αποκλίσεων, καθώς και την εφαρμογή Εξόρυξης Κανόνων Συσχέτισης (Association Rule Mining – ARM) σε καθαρά σύνολα δεδομένων. Επιπλέον, παρουσιάζεται μια νέα, καινοτόμος μέθοδος κανονικοποίησης δεδομένων χρονοσειρών. Αρχικά, η διατριβή επικεντρώνεται σε βελτιώσεις στη μεμονωμένη μοντελοποίηση δεδομένων υψηλής μεταβλητότητας στον τομέα του αθλητισμού, διερευνώντας πώς μπορούν να επιτευχθούν βέλτιστα αποτελέσματα σε σύγκριση με τις τυπικές μεθοδολογίες ML. Η συγκεκριμένη μελέτη αποσκοπεί στη συγκριτική αξιολόγηση της ικανότητας πρόβλεψης 14 μοντέλων ML βάσει 18 προχωρημένων στατιστικών καλαθοσφαίρισης και KPIs. Επιπλέον, προβλέπονται επιχειρησιακά προσανατολισμένες μεταβλητές στόχου στο πλαίσιο της καλαθοσφαίρισης, με στόχο την ελαχιστοποίηση των σφαλμάτων πρόβλεψης για δεδομένα υψηλής μεταβλητότητας. Παρουσιάζεται επίσης ένας νέος δείκτης αξιολόγησης με επιχειρησιακό προσανατολισμό, ο Weighted Average Percentage Error (WAPE). Επιπρόσθετα, εφαρμόστηκε ένα σύνολο μεθόδων εντοπισμού αποκλίσεων, το οποίο περιλαμβάνει τον αλγόριθμο Density-Based Spatial Clustering of Applications with Noise (DBSCAN). Ο αλγόριθμος Apriori για την Εξόρυξη Κανόνων Συσχέτισης (ARM) χρησιμοποιήθηκε επίσης για τον εντοπισμό συσχετίσεων μεταξύ διαφορετικών τύπων δεδομένων. Τέλος, εισάγεται μια νέα μέθοδος κανονικοποίησης δεδομένων χρονοσειρών, η Adaptive Sliding Window Normalization (ASWN). Η μέθοδος αυτή προσαρμόζει δυναμικά το μέγεθος του παραθύρου κανονικοποίησης, βασιζόμενη στις αποκλίσεις που εντοπίζονται μέσω πολλαπλών μεθόδων. Για την οριστικοποίηση των αποκλίσεων χρησιμοποιείται ο DBSCAN, ενώ το Κριτήριο Πληροφοριών του Akaike (AIC), σε συνδυασμό με τα μοντέλα AutoRegressive Integrated Moving Average (ARIMA), αξιοποιείται για τον καθορισμό βέλτιστων μεγεθών παραθύρου όταν δεν υπάρχουν αποκλίσεις. Με την παρουσίαση όλων αυτών των προόδων στην Επιστήμη Δεδομένων, καλύπτοντας τη διαχείριση δεδομένων, την πρόβλεψη, καθώς και την αναγνώριση προτύπων και συσχετίσεων, η εργασία αυτή στοχεύει να συμβάλει στα πεδία της DS, DM και ML, όπως αυτά εφαρμόζονται σε πραγματικά δεδομένα και σενάρια. Όλες οι προτεινόμενες μέθοδοι αξιολογούνται και συζητούνται ως προς τις εφαρμογές τους, αναδεικνύοντας τη συμβολή τους στην Επιστήμη Δεδομένων, καθώς και τη χρησιμότητά τους σε πραγματικά επιχειρησιακά περιβάλλοντα. Ο κύριος στόχος παραμένει η εξέλιξη τεχνικών για την εξαγωγή πολύτιμων γνώσεων από ετερογενή ακατέργαστα δεδομένα. Επιπλέον, διατυπώνονται προτάσεις για μελλοντική έρευνα, με σκοπό την περαιτέρω διερεύνηση αυτών των μεθόδων και διαδικασιών, προς επίτευξη βέλτιστης εξαγωγής γνώσης και συνεχούς προόδου στον τομέα.
περισσότερα
Περίληψη σε άλλη γλώσσα
Data Science (DS) serves as a fundamental pillar across all industries, with businesses relying more than ever on data-driven insights for decision-making. Various methodologies are applied to industry data, often with multiple variations, aiming to extract valuable insights that can be translated by the corresponding stakeholders into actionable decisions. However, technological advancements and research innovations necessitate the exploration of new methodologies to drive progress in DS, Data Mining (DM), and Machine Learning (ML) research applied to industry data. This thesis sets out to explore three main pillars and introduce methods designed to enhance DS and DM applications within business contexts. To investigate and demonstrate these methods, we applied them to real-world business data from diverse domains, specifically basketball data, financial stock data, and energy-related data. Our primary research questions are focused on exploring, introducing, and presenting advanced m ...
Data Science (DS) serves as a fundamental pillar across all industries, with businesses relying more than ever on data-driven insights for decision-making. Various methodologies are applied to industry data, often with multiple variations, aiming to extract valuable insights that can be translated by the corresponding stakeholders into actionable decisions. However, technological advancements and research innovations necessitate the exploration of new methodologies to drive progress in DS, Data Mining (DM), and Machine Learning (ML) research applied to industry data. This thesis sets out to explore three main pillars and introduce methods designed to enhance DS and DM applications within business contexts. To investigate and demonstrate these methods, we applied them to real-world business data from diverse domains, specifically basketball data, financial stock data, and energy-related data. Our primary research questions are focused on exploring, introducing, and presenting advanced methods for applying DS and DM techniques to real-world business data, including strategies for data retrieval. This thesis introduces innovative ML modeling approaches, new business-oriented Key Performance Indicators (KPIs) for method evaluation, novel ML evaluation methods rooted in DS fundamentals, advanced techniques for anomaly detection, and the application of Association Rule Mining (ARM) to clean datasets. Additionally, we present a new innovative normalization method for time-series data. This thesis first addressed advancements in individual modeling for highly volatile sports data, examining how optimal results can be achieved relative to standard ML methodologies. This effort aims to benchmark the forecasting performance of 14 ML models based on 18 advanced basketball statistics and KPIs. Additionally, business-oriented target variables in basketball are forecasted, focusing on minimizing forecasting errors for volatile data. A new business-oriented evaluation metric called Weighted Average Percentage Error (WAPE) is introduced. Additionally, an ensemble of anomaly detection methods was applied, including the Density-Based Spatial Clustering of Applications with Noise (DBSCAN) algorithm. The Apriori algorithm for ARM is also implemented to identify associations among different types of data. Lastly, we introduced a novel normalization method for time-series data called Adaptive Sliding Window Normalization (ASWN). This method dynamically adjusts normalization window sizes, based on anomalies detected through multiple methods. For finalizing these anomalies, DBSCAN is employed, and the Akaike Information Criterion (AIC), in conjunction with AutoRegressive Integrated Moving Average (ARIMA) models, are used to determine optimal window sizes in the absence of anomalies. By presenting all these advances in DS, spanning data processing, forecasting, and pattern and association recognition, this work aims to contribute to the fields of DS, DM, and ML as applied to real-world data and scenarios. All methods introduced are evaluated and discussed in terms of their applications, highlighting their contributions to the DS field, as well as their applicability in real-world business contexts. The primary focus remains on advancing techniques for extracting valuable insights from diverse types of raw data. Additionally, further research objectives are outlined to explore these methods and processes further, aiming to achieve optimal knowledge extraction and continued improvements in the field.
περισσότερα