Περίληψη
Η ποιότητα των δεδομένων αποτελεί ένα από τα κύρια σημεία ενδιαφέροντος στην εκπαίδευση μοντέλων Μηχανικής Μάθησης (ML), καθώς ατελή δεδομένα συχνά υποβαθμίζουν την αποτελεσματικότητα των μοντέλων και θέτουν σε κίνδυνο την αξιοπιστία των αποτελεσμάτων τους σε βιομηχανικές εφαρμογές. Η Αποσφαλμάτωση Δεδομένων για Μηχανική Μάθηση (Data Debugging for ML – DDML) στοχεύει στη βελτίωση των ατελών δεδομένων μέσω συστηματικής επεξεργασίας και παρακολούθησης τους σε συνδυασμό με το προβλεπτικό μοντέλο που έχει κατασκευαστεί, εξασφαλίζοντας έτσι σύνολα δεδομένων υψηλής ποιότητας κατά τις φάσεις της εκπαίδευσης και της εξυπηρέτησης (serving). Ωστόσο, καθώς τα σύνολα δεδομένων μεγαλώνουν σε κλίμακα και γίνονται πιο ποικίλα ως προς τις μορφές (modalities) και επιπλέον η περιπλοκότητα των προβλεπτικών μοντέλων αυξάνεται, οι τεχνικές DDML αντιμετωπίζουν αρκετές προκλήσεις. Πρώτον (i), διαφορετικές ατέλειες στα δεδομένα μπορεί να αφορούν τις ετικέτες (labels), τα χαρακτηριστικά (features) , ή και τ ...
Η ποιότητα των δεδομένων αποτελεί ένα από τα κύρια σημεία ενδιαφέροντος στην εκπαίδευση μοντέλων Μηχανικής Μάθησης (ML), καθώς ατελή δεδομένα συχνά υποβαθμίζουν την αποτελεσματικότητα των μοντέλων και θέτουν σε κίνδυνο την αξιοπιστία των αποτελεσμάτων τους σε βιομηχανικές εφαρμογές. Η Αποσφαλμάτωση Δεδομένων για Μηχανική Μάθηση (Data Debugging for ML – DDML) στοχεύει στη βελτίωση των ατελών δεδομένων μέσω συστηματικής επεξεργασίας και παρακολούθησης τους σε συνδυασμό με το προβλεπτικό μοντέλο που έχει κατασκευαστεί, εξασφαλίζοντας έτσι σύνολα δεδομένων υψηλής ποιότητας κατά τις φάσεις της εκπαίδευσης και της εξυπηρέτησης (serving). Ωστόσο, καθώς τα σύνολα δεδομένων μεγαλώνουν σε κλίμακα και γίνονται πιο ποικίλα ως προς τις μορφές (modalities) και επιπλέον η περιπλοκότητα των προβλεπτικών μοντέλων αυξάνεται, οι τεχνικές DDML αντιμετωπίζουν αρκετές προκλήσεις. Πρώτον (i), διαφορετικές ατέλειες στα δεδομένα μπορεί να αφορούν τις ετικέτες (labels), τα χαρακτηριστικά (features) , ή και τα δύο, επηρεάζοντας το μοντέλο σε διαφορετικές φάσεις. Στη φάση ανάπτυξης του μοντέλου, το σύνολο δεδομένων εκπαίδευσης μπορεί να περιέχει λανθασμένα επισημασμένα (mislabeled), αποκλίνοντα (anomalies) δείγματα ή/και δηλητηριώδη δεδομένα (data poisons) . Κατά τη φάση εξυπηρέτησης, ενδέχεται να υπάρξουν κακόβουλες επιθέσεις (adversarial attacks) ή οι στατιστικές ιδιότητες μεταξύ των δεδομένων εκπαίδευσης και εξυπηρέτησης να μεταβληθούν, ένα φαινόμενο γνωστό και ως μετατόπιση δεδομένων (data drift) , επηρεάζοντας τις posterior, class-conditional ή marginal κατανομές. Διαφορετικοί τύποι μετατόπισης απαιτούν διαφορετικές επιδιορθωτικές ενέργειες στο μοντέλο ή τα δεδομένα, γεγονός που αναδεικνύει τη σημασία της κατανόησης (και εξήγησης) της μετατόπισης. Δεύτερον (ii), πολλαπλά σφάλματα μπορεί να συνυπάρχουν στο ίδιο σύνολο δεδομένων, χωρίς να είναι γνωστά εκ των προτέρων, γεγονός που απαιτεί την ανάπτυξη μεθόδων χωρίς επίβλεψη (unsupervised) , για την ανίχνευση και διόρθωσή τους. Οι μέθοδοι ανίχνευσης πρέπει επίσης να είναι εξηγήσιμες ώστε να επιτρέπουν ορθές επιδιορθωτικές ενέργειες. Τρίτον (iii), δεν επηρεάζουν όλα τα σφάλματα δεδομένων με τον ίδιο τρόπο ή με την ίδια κρισιμότητα τα διαφορετικά προβλεπτικά μοντέλα, ούτε και επιδρούν απαραίτητα στις ίδιες εποχές εκπαίδευσης (training epochs).Οι προηγούμενες εργασίες σε DDML δεν ξεπερνούν όλες τις παραπάνω προκλήσεις. Η πλειοψηφία επικεντρώνεται σε μεμονωμένους τύπους προβλημάτων στα δεδομένα, ενώ σπανίως παρέχουν εξηγήσεις για τον αντίκτυπο των ανιχνευμένων προβλημάτων στο προβλεπτικό μοντέλο. Σε αυτήν τη διατριβή, προτείνουμε το πρώτο σύστημα αποσφαλμάτωσης δεδομένων για εκπαίδευση μοντέλων μηχανικής μάθησης, που παράλληλα εξηγεί τα εντοπισθέντα προβλήματα XDDML (eXplainable-by-design Data Debugging for ML) , ξεπερνώντας σε όλες τις παραπάνω προκλήσεις. Το XDDML αξιοποιεί τις συναρτήσεις επιρροής (Influence Functions – IFs). Οι IFs είναι μια τεχνική επεξήγησης μοντέλων βάσει δειγμάτων, η οποία προσεγγίζει την επίδραση ενός δείγματος σε ένα άλλο (σκορ επίδρασης), με βάση την επιφάνεια απόφασης του μοντέλου. Οι IFs αποτελούν ένα καθολικό πλαίσιο για την εκτίμηση της επίδρασης δειγμάτων σε διαφορετικές μορφές δεδομένων και αρχιτεκτονικές μοντέλων. Η βασική ιδέα του XDDML είναι ότι τα σφάλματα δεδομένων επηρεάζουν τις επιφάνειες αποφάσεων των μοντέλων με διαφορετικό τρόπο από τα «καθαρά» (σωστά) δείγματα, επιτρέποντας την ανίχνευσή τους, ενώ το αποτύπωμα της επίδρασης διαφέρει μεταξύ διαφορετικών τύπων προβλημάτων, επιτρέποντας έτσι και την εξήγησή τους. Για να ξεπεράσουμε τα (i, ii, iii) , προτείνουμε αρκετά σήματα επίδρασης (influence signals) που υλοποιούν εξειδικευμένες συναθροίσεις στα σκορ επίδρασης σε διαφορετικές φάσεις του μοντέλου. Στο πρώτο μέρος της διατριβής, εστιάζουμε στην αποσφαλμάτωση συνόλων δεδομένων εκπαίδευσης, εισάγοντας τέσσερα νέα σήματα επίδρασης, συγκεκριμένα τα CNCI, PCID, CFrank και PNI , για την ανίχνευση και τον χαρακτηρισμό προβλημάτων στις ετικέτες (CNCI) για διάφορες κατανομές θορύβου, αποκλινόντων σημείων (PCID), συνδυασμούς και και των δύο (CFrank), ή δηλητηριωδών δεδομένων (PNI). Ταυτόχρονα, τα CNCI και PNI παρέχουν διορθώσεις ετικετών για τα δείγματα με λάθος ετικέτα καθώς και σε στοχευμένα δείγματα από δηλητηριώδη δεδομένα αντίστοιχα. Υπολογιστικά πειράματα σε δεδομένα σε μορφή πινάκων, εικόνων και χρονοσειρών, έδειξαν ότι τα CNCI, PCID και PNI υπερέχουν, σε ορισμένες περιπτώσεις έως και 6 φορές, όλων των υπαρχόντων σημάτων επίδρασης και λειτουργούν με ακρίβεια σε διαφορετικά σύνολα δεδομένων και προβλεπτικά μοντέλα. Επιπλέον, υπερέχουν εξειδικευμένων ανιχνευτών και παρέχουν ακριβείς διορθώσεις ετικετών. Στο δεύτερο μέρος της διατριβής, στοχεύουμε στην ανίχνευση σφαλμάτων στα δεδομένα κατά τη φάση πρόβλεψης (inference). Αρχικά, αναπτύσσουμε το σήμα επίδρασης SI^ για την ανίχνευση κακόβουλων επιθέσεων στο σύνολο δοκιμής (test set), χωρίς πρόσβαση στις πραγματικές ετικέτες των δειγμάτων. Πειράματα που πραγματοποιήσαμε έδειξαν ότι το SI^ υπερέχει σημαντικά των εξειδικευμένων ανιχνευτών, ειδικά σε επιθέσεις υψηλής πιστότητας. Έπειτα, προτείνουμε το πρώτο ενοποιημένο σύστημα για εντοπισμό και διάκριση μετατόπισης του μοντέλου, που έχει επίπτωση στην αποτελεσματικότητά του, από τη μετατόπιση χαρακτηριστικών που δεν έχει επίπτωση στην αποτελεσματικότητά του. Το σύστημα το ονομάζουμε EDDI το οποίο εντοπίζει όλους τους τύπους μετατόπισης και επιπλέον μπορεί να εξηγήσει την πιθανοκρατική πηγή τους σε posterior, class-conditioned και marginal κατανομές. Το EDDI βασίζεται σε δύο σήματα επίδρασης για την ανίχνευση, τα SI και WI , ενώ παρέχει εξηγήσεις που απαντούν στο “πώς” η μετατόπιση θα επηρεάσει το μοντέλο μέσω των σημάτων NI και BI. Η βασική ιδέα είναι ότι οι κατανομές επίδρασης μεταξύ μετατοπισμένων και μη μετατοπισμένων δειγμάτων διαφέρουν στατιστικά, ενώ οι διαφορετικοί τύποι μετατόπισης παρουσιάζουν διακριτά αποτυπώματα επίδρασης. Για την αξιολόγηση του EDDI , σχεδιάσαμε εξατομικευμένες προσομοιώσεις για κάθε τύπο μετατόπισης. Τα πειράματα που διεξάγαμε έδειξαν πως το EDDI επιτυγχάνει στατιστικά σημαντικές βελτιώσεις, έως και 15\%, στον εντοπισμό τεσσάρων τύπων μετατόπισης σε σχέση με εξειδικευμένες μεθόδους, ενώ παρέχει ακριβή εξήγηση αποκαλύπτοντας τον τύπο κάθε μετατόπισης επιτυγχάνοντας ένα AUC σκορ έως 0.8.
περισσότερα
Περίληψη σε άλλη γλώσσα
Data quality is one of the major pain points of modern Machine Learning (ML) pipelines, as it often degrades the performance of models and jeopardizes the reliability of their outcomes for real-world applications. Data Debugging for ML (DDML) aims to address this issue by systematically engineering and monitoring the data in conjunction with the ML model built and deployed, hence ensuring high-quality datasets during the training and serving phases. However, as datasets grow in scale and become more diverse in terms of modalities, while ML models become increasingly sophisticated, DDML faces several challenges. First (i), different data imperfections may slip on the labels or the features that may impact a model at different phases. In the model development phase, the training dataset may contain mislabeled, anomalous samples, and/or data poisons. During the model deployment phase, adversarial attacks may be crafted or the statistical properties between training and serving data may ch ...
Data quality is one of the major pain points of modern Machine Learning (ML) pipelines, as it often degrades the performance of models and jeopardizes the reliability of their outcomes for real-world applications. Data Debugging for ML (DDML) aims to address this issue by systematically engineering and monitoring the data in conjunction with the ML model built and deployed, hence ensuring high-quality datasets during the training and serving phases. However, as datasets grow in scale and become more diverse in terms of modalities, while ML models become increasingly sophisticated, DDML faces several challenges. First (i), different data imperfections may slip on the labels or the features that may impact a model at different phases. In the model development phase, the training dataset may contain mislabeled, anomalous samples, and/or data poisons. During the model deployment phase, adversarial attacks may be crafted or the statistical properties between training and serving data may change, a phenomenon called data drift, affecting their posterior, class-conditional, or marginal distributions. Regarding the data drift, different drift types call for different mitigation actions on the models or the data, highlighting the importance of drift understanding (explanation). Second (ii), multiple data bugs may co-exist in the same dataset, which are not known in advance, hence calling for unsupervised methods to detect and repair them. Methods for both tasks need to be explainable to enable informative mitigation actions. Third (iii), not all data bugs affect in the same way and strength, different ML models or impact them at the same training epochs. Prior DDML works do not address all the previous challenges. The majority focus on a single type of data bug, while they rarely provide explanations for the impact of the detected issues on the ML model. In this thesis, we propose the first eXplainable-by-design Data Debugging for ML framework (XDDML) to address all previous challenges. XDDML leverages Influence Functions (IFs). IFs is an instance-based model explanation technique that approximates the impact of a sample on another, called the influence score, based on the model's decision boundary. IFs emerge as a universal framework for estimating samples' influence for different data modalities and model architectures. The key idea of XDDML is that data bugs influence the decision boundary differently than clean samples, allowing their detection, and the influence footprint differs for different types of issues, allowing their explanation. To address (i, ii, iii), we propose several influence signals that perform meaningful aggregations on the influence scores at different model phases. In the first part of the thesis, we focus on data debugging for training sets, introducing three novel influence-based signals, namely CNCI, PCID, CFrank, and PNI for detecting and characterizing label noise (CNCI) for different noise distributions, clustered anomalies (PCID), mixtures of both (CFrank), or data poisons (PNI), while at the same time, CNCI and PNI provide label repairs for the detected mislabeled and target samples, respectively. Computational experiments on tabular, image and time-series data modalities demonstrate that CNCI, PCID, and PNI outperform, in some cases up to a factor of 6, all existing influence-based signals and generalize across different datasets and ML models. In addition, they often outperform specialized detectors and provide accurate label repairs for the mislabeled and target samples.In the second part of the thesis, we aim to detect data bugs during inference. First, we develop the SI^ influence signal to detect adversarial examples in the test set without accessing the true labels. Computational experiments demonstrated that SI^ significantly outperforms specialized detectors, especially in high-fidelity adversarial attacks. Second, we propose the first unified framework for distinguishing model (with a performance impact) from feature drift (without a performance impact) while being able to explain the probabilistic source of a drift on posterior, class-conditional, or marginal distributions. In this respect, EDDI relies on two detection influence signals, called SI and WI, while at the same time, it provides "how" drift explanations using two influence signals, called NI and BI. The key idea is that the influence distributions between drifted and non-drifted samples statistically differ, while different drift types exhibit distinct influence footprints. To evaluate EDDI, a type-specific drift simulation is developed, demonstrating that EDDI achieves statistically significant detection performance improvements up to 15% over baselines across four drift types, while providing a precise explanation up to 0.8 AUC, revealing each drift type.
περισσότερα