Περίληψη
Τα σύγχρονα συστήματα μηχανικής μάθησης τα τελευταία χρόνια έχουν καταφέρει να πετύχουν εντυπωσιακές επιδόσεις σε πολλαπλά προβλήματα και ελεγχόμενα περιβάλλοντα. Ωστόσο η επιτυχία τους βασίζεται σε μεγάλο βαθμό στην εκμετάλλευση στατιστικών συσχετίσεων των δεδομένων εκπαίδευσης και όχι στην πραγματική κατανόηση των υποκείμενων φαινομένων ή των διαδικασιών παραγωγής δεδομένων. Αυτή η εξάρτηση από υποκειμενικά συσχετισμένα, και όχι αιτιώδη, χαρακτηριστικά καθιστά τα μοντέλα αδύναμα όταν αξιολογούνται σε δεδομένα τα οποία προέρχονται από παρόμοιες αλλά διαφορετικές κατανομές από αυτές των δεδομένων εκπαίδευσης. Δεδομένου ότι η γενίκευση πέραν της παρατηρηθείσας κατανομής κατά την εκπαίδευση, αποτελεί κεντρική πρόκληση της μηχανικής μάθησης, η αντιμετώπιση αυτής της αδυναμίας είναι απαραίτητη για την αξιόπιστη, ασφαλή και έμπιστη υιοθέτηση και εφαρμογή των μοντέλων αυτών σε κρίσιμους τομείς όπως η Υγεία. Η παρούσα διατριβή επικεντρώνεται στο πρόβλημα της Γενίκευσης Πεδίων (Domain Generali ...
Τα σύγχρονα συστήματα μηχανικής μάθησης τα τελευταία χρόνια έχουν καταφέρει να πετύχουν εντυπωσιακές επιδόσεις σε πολλαπλά προβλήματα και ελεγχόμενα περιβάλλοντα. Ωστόσο η επιτυχία τους βασίζεται σε μεγάλο βαθμό στην εκμετάλλευση στατιστικών συσχετίσεων των δεδομένων εκπαίδευσης και όχι στην πραγματική κατανόηση των υποκείμενων φαινομένων ή των διαδικασιών παραγωγής δεδομένων. Αυτή η εξάρτηση από υποκειμενικά συσχετισμένα, και όχι αιτιώδη, χαρακτηριστικά καθιστά τα μοντέλα αδύναμα όταν αξιολογούνται σε δεδομένα τα οποία προέρχονται από παρόμοιες αλλά διαφορετικές κατανομές από αυτές των δεδομένων εκπαίδευσης. Δεδομένου ότι η γενίκευση πέραν της παρατηρηθείσας κατανομής κατά την εκπαίδευση, αποτελεί κεντρική πρόκληση της μηχανικής μάθησης, η αντιμετώπιση αυτής της αδυναμίας είναι απαραίτητη για την αξιόπιστη, ασφαλή και έμπιστη υιοθέτηση και εφαρμογή των μοντέλων αυτών σε κρίσιμους τομείς όπως η Υγεία. Η παρούσα διατριβή επικεντρώνεται στο πρόβλημα της Γενίκευσης Πεδίων (Domain Generalization, DG), όπου τα μοντέλα καλούνται να αποδώσουν ικανοποιητικά σε άγνωστα πεδία (κατανομές) αξιολόγησης χωρίς καμία πρόσβαση σε αυτά κατά την εκπαίδευση. Η μελέτη πραγματοποιείται σε ευρύ φάσμα συνόλων δεδομένων, περιλαμβάνοντας καθιερωμένα σύνολα εικόνων (PACS, VLCS, Office-Home, TerraIncognita, DomainNet), καθώς και βιοσήματα όπως ηλεκτροκαρδιογράφημα (ECG), ελεκτροεγκεφαλογράφημα (EEG) και φωνοκαρδιογράφημα (PCG). Επιπλέον, αναπτύσσεται και δημοσιεύεται το BioDG, ένα από τα πρώτα συστηματικά benchmark DG για μονοδιάστατα βιοσήματα ECG και EEG, το οποίο συνδυάζει δεδομένα από διαφορετικούς πληθυσμούς, συσκευές και πρωτόκολλα καταγραφής, επιτρέποντας την αξιολόγηση DG μεθόδων σε ρεαλιστικά σενάρια. Η διατριβη ξεκινά με εκτενή ανασκόπηση της σχετικής βιβλιογραφίας και αναπτύσσει ένα ενοποιημένο θεωρητικό πλαίσιο που οργανώνει τις υπάρχουσες προσεγγίσεις DG σε τρεις μεθοδολογικούς πυλώνες: (α) χειρισμό δεδομένων (data manipulation), (β) εκμάθηση αναπαραστάσεων (representation learning), και (γ) στρατηγικές μάθησης (learning strategies). Σε κάθε πυλώνα η εργασία εισάγει και αξιολογεί νέες μεθόδους, συνοδευόμενες από εκτεταμένη πειραματική αξιολόγηση. Στον πυλώνα του χειρισμού δεδομένων, προτείνεται η μέθοδος CycleMix, η οποία επεκτείνει την οικογένεια mixup-style προσεγγίσεων χρησιμοποιώντας κυκλικά συνεπή δίκτυα αντιπαραθετικής εκπαίδευσης (CycleGANs) για τη μεταφορά στυλ μεταξύ πεδίων (domains) χωρίς αλλοίωση της σημασιολογίας. Τα αποτελέσματα στο σύνολο δεδομένων PACS δείχνουν σημαντική αύξηση της επίδοσης εκτός κατανομής έναντι ERM και Mixup. Επιπλέον, προτείνεται μια μέθοδος επαύξησης χαρτών χαρακτηριστικών (Feature Map Augmentations) η οποία εφαρμόζει στοχαστικές επαυξήσεις (θόρυβο, περιστροφές, Gaussian blur, κ.α) απευθείας στους ενδιάμεσους τανυστές ενός CNN, ενισχύοντας τη σταθερότητα των αναπαραστάσεων. Όσον αφορά τα βιοσήματα PCG και στο πλαίσιο του PhysioNet 2022 Challenge, η εργασία αξιολογεί δεκάδες συνδυασμούς μετασχηματισμών για την εκμάθηση αντιθετικών (contrastive) αυτο-επιβλεπόμενων αναπαραστάσεων PCG. Περαιτέρω εμπειρική ανάλυση αποκαλύπτει ποιες επαυξήσεις (όπως time-warping, pitch shifting και ζωνοπερατών φίλτρων) οδηγούν σε πιο γενικεύσιμες αναπαραστάσεις, παρέχοντας εμπειρικές κατευθύνσεις για σχεδίαση SSL μεθόδων σε βιοσήματα. Στην κατηγορία της εκμάθησης αναπαραστάσεων, προτείνονται αρχιτεκτονικές που αξιοποιούν ενδιάμεσες αναπαραστάσεις συνελικτικών δικτύων (CNN) για την εκμάθηση απεμπλεγμένων (disentangled) χαρακτηριστικών. Αναπτύσσονται hypercolumn-based μοντέλα που συνδυάζουν χαρακτηριστικά πολλαπλών επιπέδων, αρχιτεκτονικές με πολυεπίπεδους μηχανισμούς προσοχής (attention mechansims) για δυναμική στάθμιση χαρακτηριστικών ανά πεδίο, καθώς και η μέθοδος M2-CL, η οποία συνδυάζει πληροφορία από πολλές κλίμακες μέσω αντιθετικής μάθησης. Τα αποτελέσματα σε PACS, VLCS και Office-Home και NICO δείχνουν βελτίωση 1–3 ποσοστιαίων μονάδων έναντι μεθόδων αναφοράς. Πειράματα στο BioDG, δείχνουν ότι η χρήση πολυεπίπεδων αναπαραστάσεων βελτιώνει την απόδοση σε έως και 10% σε σχέση με συμβατικά CNNs. Ο τρίτος πυλώνας της στρατηγικής μάθησης, ασχολείται με το ίδιο το σχήμα εκπαίδευσης. Η μέθοδος GGA εισάγει έναν μηχανισμό "καθοδηγούμενης ανόπτησης'' που στοχεύει σε τοπικά ελάχιστα της συνάρτησης απώλειας στα οποία υπάρχει αυξημένη συμφωνία παραγώγων μεταξύ διαφορετικών πεδίων. Η κεντρική ιδέα είναι ότι, αν οι κατευθύνσεις των παραγώγων πολλών μεταβλητών στα διαφορετικά domains είναι παρόμοιες, τότε το σημείο ελαχίστου που ικανοποιεί όλες τις συνθήκες έχει καλύτερη δυνατότητα γενίκευσης. Η GGA-L επεκτείνει τη διαδικασία εφαρμόζοντας την ανόπτηση ως μέρος της συνάρτησης απώλειας, ώστε να μειωθεί η υπολογιστική πολυπλοκότητα. Σε πειράματα σε πολλαπλά σύνολα δεδομένων (PACS, VLCS, TerraIncognita, OfficeHome και DomainNet) η GGA οδηγεί σε σημαντική αύξηση της επίδοσης σε σχέση με τον ERM και επιτυγχάνει αποτελέσματα παρόμοια ή υψηλότερα του state-of-the-art σε πολλές περιπτώσεις. Συνοψίζοντας, εκτεταμένα πειράματα, συγκρίσεις με μεθόδους αιχμής και αναλυτικές μελέτες ευαισθησίας προσφέρουν βαθύτερη κατανόηση του πότε και γιατί οι προτεινόμενες προσεγγίσεις λειτουργούν αποτελεσματικά. Συνολικά, η παρούσα διατριβή συμβάλλει στην ανάπτυξη νέων αλγορίθμων, benchmarks και εμπειρικών ευρημάτων που ενισχύουν την προσπάθεια για ανάπτυξη συστημάτων μηχανικής μάθησης ικανών να γενικεύουν εκτός κατανομής για διαφορετικούς τύπους δεδομένων σε ρεαλιστικές συνθήκες.
περισσότερα
Περίληψη σε άλλη γλώσσα
Modern machine learning systems have achieved remarkable performance across a wide range of tasks and controlled environments. However, their success often relies on exploiting statistical correlations present in the training data rather than learning the underlying mechanisms or data-generating processes. This dependence on spurious, non-causal features renders such models fragile when evaluated on data drawn from distributions that differ from those observed during training. Since generalization beyond the training distribution constitutes a central challenge in machine learning, addressing this limitation is essential for the reliable, safe, and trustworthy deployment of these systems, particularly in critical domains such as healthcare. This dissertation focuses on the problem of Domain Generalization (DG), where models are required to perform robustly on previously unseen domains (i.e., data distributions) without any access to evaluation data during training. The study spans a br ...
Modern machine learning systems have achieved remarkable performance across a wide range of tasks and controlled environments. However, their success often relies on exploiting statistical correlations present in the training data rather than learning the underlying mechanisms or data-generating processes. This dependence on spurious, non-causal features renders such models fragile when evaluated on data drawn from distributions that differ from those observed during training. Since generalization beyond the training distribution constitutes a central challenge in machine learning, addressing this limitation is essential for the reliable, safe, and trustworthy deployment of these systems, particularly in critical domains such as healthcare. This dissertation focuses on the problem of Domain Generalization (DG), where models are required to perform robustly on previously unseen domains (i.e., data distributions) without any access to evaluation data during training. The study spans a broad range of datasets, including established image benchmarks (PACS, VLCS, Office-Home, TerraIncognita, DomainNet) as well as biosignals such as electrocardiography (ECG), electroencephalography (EEG), and phonocardiography (PCG). Furthermore, we develop and release BioDG, one of the first systematic DG benchmarks for one-dimensional biosignal classification (ECG and EEG), integrating data from diverse populations, recording devices, and acquisition protocols to enable realistic DG evaluation. The dissertation begins with an extensive literature review and introduces a unified theoretical framework that organizes DG approaches into three methodological pillars: (a) data manipulation, (b) representation learning, and (c) learning strategies. Within each pillar, the thesis proposes and evaluates novel methods supported by comprehensive empirical analysis. In the data manipulation pillar, we introduce CycleMix, a method that extends mixup-style approaches by leveraging cycle-consistent adversarial networks (CycleGANs) to transfer style information across domains without altering image semantics. Experiments on PACS demonstrate substantial improvements in out-of-distribution performance compared to ERM and Mixup. We also propose Feature Map Augmentations, a method that applies stochastic perturbations (e.g., noise, rotations, Gaussian blur) directly to intermediate CNN feature maps, thereby enhancing the stability of learned representations. For PCG biosignals, and within the context of the PhysioNet 2022 Challenge, we systematically evaluate dozens of augmentation combinations for contrastive self-supervised learning. The analysis identifies augmentations, such as time-warping, pitch shifting, and band-pass filtering that yield more generalizable representations, offering practical guidance for SSL design on biosignals. In the representation learning pillar, we investigate architectures that exploit intermediate CNN representations to learn disentangled and domain-robust features. We develop hypercolumn-based models that integrate features from multiple layers, architectures equipped with multi-level attention mechanisms for domain-dependent feature weighting, and the M2-CL method, which combines multi-layer and multi-scale information through contrastive learning. Experiments on PACS, VLCS, Office-Home, and NICO indicate improvements of 1–3 percentage points over established baselines. Experiments on BioDG further show that multi-level representations improve classification by up to 10%, when compared to conventional CNNs. The third pillar, learning strategies, examines the optimization process itself. The proposed Gradient-Guided Annealing (GGA) method introduces a mechanism that seeks local minima of the loss function in which gradients exhibit strong alignment across domains. The core hypothesis is that if gradient directions across domains are aligned, then minima satisfying these conditions lead to models with improved generalization capabilities. The GGA-L variant incorporates the annealing process directly into the loss function, reducing computational overhead. Across multiple datasets (PACS, VLCS, TerraIncognita, Office-Home, DomainNet), GGA delivers substantial performance gains over ERM and achieves results that match or surpass state-of-the-art methods.In summary, extensive experiments, comparisons with competitive baselines, and detailed sensitivity analyses provide insight into when and why the proposed approaches succeed. Overall, this dissertation advances the development of algorithms, benchmarks, and empirical methodologies that contribute to building machine learning systems capable of robust generalization under realistic out-of-distribution conditions.
περισσότερα