Περίληψη
Η Μηχανική Μάθηση (Machine Learning, ML) και η Τεχνητή Νοημοσύνη (Artificial Intelligence, AI) ενσωματώνονται ολοένα και περισσότερο στην υγεία και την κοινωνική φροντίδα. Ωστόσο, η επιτυχία τους εξαρτάται από την πρόσβαση σε δεδομένα υψηλής ποιότητας υπό αυστηρούς περιορισμούς ιδιωτικότητας, ηθικής και κανονιστικής συμμόρφωσης. Η Ομοσπονδιακή Μάθηση (Federated Learning, FL) αναδεικνύεται ως πρακτικό παράδειγμα συνεργατικής εκπαίδευσης, καθώς επιτρέπει την εκπαίδευση μοντέλων χωρίς κεντρικοποίηση ευαίσθητων δεδομένων, περιορίζοντας την έκθεση των αρχικών δεδομένων και διατηρώντας παράλληλα τη χρησιμότητά τους. Η παρούσα διδακτορική διατριβή διερευνά την Ομοσπονδιακή Μάθηση για πραγματικές εφαρμογές υγείας και κοινωνικής φροντίδας σε δύο άξονες: (i) τον σχεδιασμό αποτελεσματικών και βιώσιμων προγνωστικών μοντέλων υπό στατιστική ετερογένεια και ανισορροπία κλάσεων, και (ii) την αποτίμηση κινδύνων ιδιωτικότητας και την ενίσχυση της ανθεκτικότητας έναντι επιθέσεων συμπερασμού συμμετοχής (M ...
Η Μηχανική Μάθηση (Machine Learning, ML) και η Τεχνητή Νοημοσύνη (Artificial Intelligence, AI) ενσωματώνονται ολοένα και περισσότερο στην υγεία και την κοινωνική φροντίδα. Ωστόσο, η επιτυχία τους εξαρτάται από την πρόσβαση σε δεδομένα υψηλής ποιότητας υπό αυστηρούς περιορισμούς ιδιωτικότητας, ηθικής και κανονιστικής συμμόρφωσης. Η Ομοσπονδιακή Μάθηση (Federated Learning, FL) αναδεικνύεται ως πρακτικό παράδειγμα συνεργατικής εκπαίδευσης, καθώς επιτρέπει την εκπαίδευση μοντέλων χωρίς κεντρικοποίηση ευαίσθητων δεδομένων, περιορίζοντας την έκθεση των αρχικών δεδομένων και διατηρώντας παράλληλα τη χρησιμότητά τους. Η παρούσα διδακτορική διατριβή διερευνά την Ομοσπονδιακή Μάθηση για πραγματικές εφαρμογές υγείας και κοινωνικής φροντίδας σε δύο άξονες: (i) τον σχεδιασμό αποτελεσματικών και βιώσιμων προγνωστικών μοντέλων υπό στατιστική ετερογένεια και ανισορροπία κλάσεων, και (ii) την αποτίμηση κινδύνων ιδιωτικότητας και την ενίσχυση της ανθεκτικότητας έναντι επιθέσεων συμπερασμού συμμετοχής (Membership Inference Attacks, MIAs). Αρχικά, μελετούμε την πρόβλεψη πρόωρης διακοπής συμμετοχής (dropout) σε εφαρμογές υγιούς γήρανσης με πραγματικά, μη ανεξάρτητα και μη ομοιόμορφα κατανεμημένα δεδομένα (non-IID) μεταξύ συμμετεχόντων και έντονη ανισορροπία κλάσεων. Προτείνουμε και αξιολογούμε στρατηγικές επιλογής συμμετεχόντων και μεθόδους δειγματοληψίας και επαναδειγματοληψίας που βελτιώνουν την αντιπροσωπευτικότητα, σταθεροποιούν τη σύγκλιση και ενισχύουν την απόδοση στη μειοψηφική κλάση, μειώνοντας ταυτόχρονα το υπολογιστικό κόστος. Τα ευρήματα δείχνουν ότι προσεκτικά σχεδιασμένες πολιτικές συμμετοχής και διαχείρισης της ανισορροπίας των δεδομένων επιτρέπουν στα μοντέλα Ομοσπονδιακής Μάθησης να ισοφαρίζουν ή και να υπερβαίνουν τα αντίστοιχα κεντρικοποιημένα μοντέλα, με επιπλέον πλεονεκτήματα ως προς τον χρόνο εκπαίδευσης και το περιβαλλοντικό αποτύπωμα. Στη συνέχεια, παρουσιάζουμε συστηματική ανάλυση επιθέσεων συμπερασμού συμμετοχής σε περιβάλλον Ομοσπονδιακής Μάθησης (FL) για υγειονομικά δεδομένα. Διακρίνουμε τις επιθέσεις συμπερασμού συμμετοχής σε επίπεδο εγγραφής (record-level) και σε επίπεδο συμμετέχοντα (client-level), και αξιολογούμε την επίδραση επιλογών διαμόρφωσης της Ομοσπονδιακής Μάθησης, όπως η επιλογή συμμετεχόντων, οι στρατηγικές δειγματοληψίας και η χρήση διαφορικής ιδιωτικότητας (Differential Privacy, DP). Επιπλέον, εξετάζουμε τον ρόλο των συνθετικών δεδομένων και εισάγουμε έναν μηχανισμό ρύθμισης κατωφλίου (\emph{threshold tuning}) που ενισχύει την αξιολόγηση των επιθέσεων σε επίπεδο συμμετέχοντα και καθιστά σαφέστερους τους συμβιβασμούς ιδιωτικότητας--χρησιμότητας σε διαφορετικά σενάρια απειλής. Η μελέτη παρέχει πρακτικές κατευθύνσεις για την παραμετροποίηση της Ομοσπονδιακής Μάθησης, ώστε να βελτιώνεται η ακρίβεια και ταυτόχρονα να περιορίζεται η ευαλωτότητα σε επιθέσεις συμπερασμού συμμετοχής (MIAs). Τέλος, εξετάζουμε την ταξινόμηση μεταξύ δίπτυχης αορτικής βαλβίδας (BAV) και τρίπτυχης αορτικής βαλβίδας (TAV) από ηχοκαρδιογραφικά βίντεο σε προβολή PLAX. Αναπτύσσουμε ένα ανθεκτικό και ερμηνεύσιμο σύνολο στοιβαγμένων βιντεο-μοντέλων (\emph{stacked video ensemble}), το οποίο συνδυάζει πολλαπλά προεκπαιδευμένα μοντέλα-βάσης (\emph{backbones}) με χρήση προβλέψεων που παράγονται αυστηρά εκτός του συνόλου εκπαίδευσης (\emph{out-of-fold predictions}), ώστε να αποφεύγεται η διαρροή πληροφορίας μεταξύ εκπαίδευσης και αξιολόγησης (\emph{leakage-free stacking}). Επιπλέον, εφαρμόζει βαθμονόμηση πιθανοτήτων για αξιόπιστες εκτιμήσεις κινδύνου και παρέχει διττό επίπεδο ερμηνευσιμότητας με Grad-CAM σε επίπεδο εικόνας και SHAP σε επίπεδο συνεισφοράς των μοντέλων. Τα αποτελέσματα δείχνουν ακριβή και ερμηνεύσιμη διάκριση δίπτυχης έναντι τρίπτυχης αορτικής βαλβίδας υπό πραγματικές συνθήκες μεταβλητότητας, αναδεικνύοντας τη χρησιμότητα αξιόπιστων μεθόδων Μηχανικής Μάθησης για την κλινική υποστήριξη απόφασης. Συνολικά, η διατριβή δείχνει ότι ο τεκμηριωμένος σχεδιασμός ομοσπονδιακών συστημάτων μάθησης μπορεί να οδηγήσει σε μοντέλα υψηλής ακρίβειας, με σεβασμό στην ιδιωτικότητα και αποδοτική χρήση υπολογιστικών πόρων σε ευαίσθητους τομείς των Βιοεπιστημών, παρέχοντας εφαρμόσιμες γνώσεις για την ισορροπία ανάμεσα στην απόδοση, τη βιωσιμότητα και την ιδιωτικότητα.
περισσότερα
Περίληψη σε άλλη γλώσσα
Emerging Machine Learning (ML) methods are increasingly embedded in the Life Sciences, particularly in health and social care, where reliable predictive models must be developed from heterogeneous data under strict privacy, ethical, and regulatory constraints. Federated Learning (FL) has emerged as a practical paradigm for collaborative model training that avoids centralizing sensitive records, thereby preserving privacy while retaining predictive utility. This thesis investigates FL for real-world healthcare and social-care applications along two complementary axes: (i) designing effective and sustainable predictive models under statistical heterogeneity and class imbalance, and (ii) assessing privacy risks and strengthening resilience against membership inference threats. First, we study early dropout prediction for healthy ageing applications using a real dataset characterized by non-IID client distributions and severe class imbalance. We propose and evaluate principled client-selec ...
Emerging Machine Learning (ML) methods are increasingly embedded in the Life Sciences, particularly in health and social care, where reliable predictive models must be developed from heterogeneous data under strict privacy, ethical, and regulatory constraints. Federated Learning (FL) has emerged as a practical paradigm for collaborative model training that avoids centralizing sensitive records, thereby preserving privacy while retaining predictive utility. This thesis investigates FL for real-world healthcare and social-care applications along two complementary axes: (i) designing effective and sustainable predictive models under statistical heterogeneity and class imbalance, and (ii) assessing privacy risks and strengthening resilience against membership inference threats. First, we study early dropout prediction for healthy ageing applications using a real dataset characterized by non-IID client distributions and severe class imbalance. We propose and evaluate principled client-selection strategies and sampling schemes that improve representativeness, stabilize convergence, and enhance minority-class performance while substantially reducing training time and environmental footprint. The results demonstrate that carefully designed participation policies enable FL models to match or surpass centralized baselines in realistic deployments. Second, we present a systematic analysis of Membership Inference Attacks (MIAs) in an FL healthcare setting. We formalize both record-level and client-level MIAs, evaluate the impact of FL configuration choices---including client selection, sampling strategies, and differential privacy---and examine the role of synthetic data. We further introduce a threshold-tuning mechanism that strengthens the evaluation of client-level attacks and clarifies privacy--utility trade-offs across threat models. The analysis provides actionable guidance for configuring FL systems that balance accuracy with reduced susceptibility to inference attacks. Finally, we address the automated classification of bicuspid versus tricuspid aortic valves (BAV vs. TAV) from routine echocardiographic cine loops. We develop a robust and interpretable stacked video-ensemble that combines multiple pretrained backbones through leakage-free, strictly out-of-fold stacking, applies probability calibration for reliable risk estimation, and delivers dual-level interpretability via frame-level Grad-CAM and meta-level SHAP. The results demonstrate accurate and transparent BAV versus TAV discrimination under real-world variability, highlighting the applicability of modern, trustworthy ML methods to clinical decision support. Taken together, this thesis demonstrates how principled design of emerging ML methods, particularly Federated Learning, can deliver accurate, privacy-aware, and resource-conscious models in sensitive Life Sciences domains, and provides practical insights for practitioners navigating trade-offs between performance, sustainability, and privacy.
περισσότερα