Αποσφαλμάτωση δεδομένων σε εφαρμογές μηχανικής μάθησης

Περίληψη

Η ποιότητα των δεδομένων αποτελεί ένα από τα κύρια σημεία ενδιαφέροντος στην εκπαίδευση μοντέλων Μηχανικής Μάθησης (ML), καθώς ατελή δεδομένα συχνά υποβαθμίζουν την αποτελεσματικότητα των μοντέλων και θέτουν σε κίνδυνο την αξιοπιστία των αποτελεσμάτων τους σε βιομηχανικές εφαρμογές. Η Αποσφαλμάτωση Δεδομένων για Μηχανική Μάθηση (Data Debugging for ML – DDML) στοχεύει στη βελτίωση των ατελών δεδομένων μέσω συστηματικής επεξεργασίας και παρακολούθησης τους σε συνδυασμό με το προβλεπτικό μοντέλο που έχει κατασκευαστεί, εξασφαλίζοντας έτσι σύνολα δεδομένων υψηλής ποιότητας κατά τις φάσεις της εκπαίδευσης και της εξυπηρέτησης (serving). Ωστόσο, καθώς τα σύνολα δεδομένων μεγαλώνουν σε κλίμακα και γίνονται πιο ποικίλα ως προς τις μορφές (modalities) και επιπλέον η περιπλοκότητα των προβλεπτικών μοντέλων αυξάνεται, οι τεχνικές DDML αντιμετωπίζουν αρκετές προκλήσεις. Πρώτον (i), διαφορετικές ατέλειες στα δεδομένα μπορεί να αφορούν τις ετικέτες (labels), τα χαρακτηριστικά (features) , ή και τ ...
περισσότερα

Περίληψη σε άλλη γλώσσα

Data quality is one of the major pain points of modern Machine Learning (ML) pipelines, as it often degrades the performance of models and jeopardizes the reliability of their outcomes for real-world applications. Data Debugging for ML (DDML) aims to address this issue by systematically engineering and monitoring the data in conjunction with the ML model built and deployed, hence ensuring high-quality datasets during the training and serving phases. However, as datasets grow in scale and become more diverse in terms of modalities, while ML models become increasingly sophisticated, DDML faces several challenges. First (i), different data imperfections may slip on the labels or the features that may impact a model at different phases. In the model development phase, the training dataset may contain mislabeled, anomalous samples, and/or data poisons. During the model deployment phase, adversarial attacks may be crafted or the statistical properties between training and serving data may ch ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/60061
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/60061
ND
60061
Εναλλακτικός τίτλος
Data debugging for machine learning
Συγγραφέας
Μυρτάκης, Νικόλαος (Πατρώνυμο: Ευάγγελος)
Ημερομηνία
2025
Ίδρυμα
Πανεπιστήμιο Κρήτης. Σχολή Θετικών και Τεχνολογικών Επιστημών. Τμήμα Επιστήμης Υπολογιστών
Εξεταστική επιτροπή
Τσαμαρδίνος Ιωάννης
Χριστοφίδης Βασίλειος
Papotti Paolo
Στυλιανού Ιωάννης
Κομοντάκης Νικόλαος
Τριανταφύλλου Σοφία
Βαζιργιάννης Μιχαήλ
Πιτουρά Ευαγγελία
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και ΤεχνολογίαΕπιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Υπολογιστές, Υλικό (hardware) και Αρχιτεκτονική
Λέξεις-κλειδιά
Αποσφαλμάτωση ∆εδομένων Εκπαίδευσης; Αποσφαλμάτωση ∆εδομένων για Μηχανική Μάθηση; ∆είγματα με Λανθασμένη Ετικέτα; Αποκλίνοντα Σημεία; ∆ηλητηριώδη ∆εδομένα; Αποσφαλμάτωση ∆εδομένων κατά την Πρόβλεψη; Ανίχνευση Μετατόπισης ∆εδομένων; Μετατόπιση Εννοιών; Μετατόπιση Μεταβλητών; Κατανόηση Μετατόπισης; Συναρτήσεις Επιρροής; Σήματα Επιρροής
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Άλλα στοιχεία
εικ., πιν., σχημ., γραφ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.