Περίληψη
Το ερώτημα της αιτιότητας «Τι θα συνέβαινε αν;» αποτελεί θεμελιώδη πυλώνα της επιστημονικής σκέψης από την αρχαιότητα, από τις πρώτες διερευνήσεις του Αριστοτέλη έως τη σύγχρονη εμπειρική έρευνα. Αυτό το ερώτημα περιλαμβάνει την κεντρική πρόκληση της αιτιώδους συμπερασματολογίας, η οποία αφορά την κατανόηση του τρόπου με τον οποίο μια παρέμβαση ή μια θεραπεία επηρεάζει τα αποτελέσματα εντός πολύπλοκων συστημάτων. Η παρούσα έρευνα προσεγγίζει αυτή την πρόκληση μέσω της ανάπτυξης μεθοδολογιών μηχανικής μάθησης για την εκτίμηση αιτιωδών επιδράσεων, με ιδιαίτερη έμφαση σε εφαρμογές όπου αξιόπιστες αιτιώδεις πληροφορίες μπορούν να ενημερώσουν κρίσιμες διαδικασίες λήψης αποφάσεων, δίνοντας έμφαση στον τομέα της υγείας. Παρόλο που οι τυχαιοποιημένες ελεγχόμενες δοκιμές (randomized controlled trials) θεωρούνται ως η βέλτιστη μέθοδος για την εγκαθίδρυση αιτιακών σχέσεων μέσω ελεγχόμενου πειραματισμού, συχνά είναι μη πρακτική προσέγγιση λόγω περιορισμών του πραγματικού κόσμου. Οικονομικοί περιο ...
Το ερώτημα της αιτιότητας «Τι θα συνέβαινε αν;» αποτελεί θεμελιώδη πυλώνα της επιστημονικής σκέψης από την αρχαιότητα, από τις πρώτες διερευνήσεις του Αριστοτέλη έως τη σύγχρονη εμπειρική έρευνα. Αυτό το ερώτημα περιλαμβάνει την κεντρική πρόκληση της αιτιώδους συμπερασματολογίας, η οποία αφορά την κατανόηση του τρόπου με τον οποίο μια παρέμβαση ή μια θεραπεία επηρεάζει τα αποτελέσματα εντός πολύπλοκων συστημάτων. Η παρούσα έρευνα προσεγγίζει αυτή την πρόκληση μέσω της ανάπτυξης μεθοδολογιών μηχανικής μάθησης για την εκτίμηση αιτιωδών επιδράσεων, με ιδιαίτερη έμφαση σε εφαρμογές όπου αξιόπιστες αιτιώδεις πληροφορίες μπορούν να ενημερώσουν κρίσιμες διαδικασίες λήψης αποφάσεων, δίνοντας έμφαση στον τομέα της υγείας. Παρόλο που οι τυχαιοποιημένες ελεγχόμενες δοκιμές (randomized controlled trials) θεωρούνται ως η βέλτιστη μέθοδος για την εγκαθίδρυση αιτιακών σχέσεων μέσω ελεγχόμενου πειραματισμού, συχνά είναι μη πρακτική προσέγγιση λόγω περιορισμών του πραγματικού κόσμου. Οικονομικοί περιορισμοί, δεοντολογικές ανησυχίες και υπολογιστικές προκλήσεις συχνά καθιστούν αναγκαία την εξάρτηση από δεδομένα παρατήρησης για αιτιακή ανάλυση. Αυτή η μετάβαση από πειραματικές σε παρατηρησιακές συνθήκες εισάγει σημαντικές μεθοδολογικές προκλήσεις, συμπεριλαμβανομένης της μεροληψίας σύγχυσης (confounding bias), της μεροληψίας επιλογής καθώς και της εγγενούς απουσίας αντιπραγματικών αποτελεσμάτων (counterfactuals), η οποία είναι ευρέως γνωστή ως το θεμελιώδες πρόβλημα της αιτιώδους συμπερασματολογίας. Η εμφάνιση της μηχανικής μάθησης έχει προσφέρει νέες δυνατότητες για την αντιμετώπιση των προκλήσεων της αιτιώδους συμπερασματολογίας μέσω προηγμένων προσεγγίσεων που βασίζονται στα δεδομένα. Συγκεκριμένα, αρχιτεκτονικές που βασίζονται σε νευρωνικά δίκτυα και μοντέλα βασισμένα σε δέντρα έχουν επιδείξει αξιοσημείωτες ικανότητες στην αποτύπωση των πολύπλοκων σχέσεων που χαρακτηρίζουν τα δεδομένα παρατήρησης, και παρουσιάζουν δυναμική για τον περιορισμό της μεροληψίας από μεταβλητές σύγχυσης και την αποτύπωση της ετερογένειας των θεραπευτικών επιδράσεων. Ωστόσο, οι υπάρχουσες μεθοδολογίες εμφανίζουν σημαντικούς περιορισμούς που περιορίζουν την πρακτική τους εφαρμοσιμότητα και θεωρητική ευρωστία. Οι σύγχρονες προσεγγίσεις μηχανικής μάθησης για την αιτιώδη συμπερασματολογία επεξεργάζονται κυρίως κάθε παρατήρηση ανεξάρτητα, αποτυγχάνοντας έτσι να εκμεταλλευτούν πολύτιμες πληροφορίες που περιέχονται σε παρόμοιες περιπτώσεις μέσα στο σύνολο δεδομένων. Αυτός ο περιορισμός καθίσταται ιδιαίτερα κρίσιμος σε περιοχές όπου υπάρχουν λίγες παρατηρήσεις, όπως σε ακραίες τιμές συμμεταβλητών, σε ασυνήθιστους συνδυασμούς χαρακτηριστικών ασθενών ή σε οριακές περιοχές της κατανομής συμμεταβλητών. Σε αυτές τις αραιές περιοχές δεδομένων, γειτονικές παρατηρήσεις με παρόμοια χαρακτηριστικά θα μπορούσαν να παρέχουν κρίσιμες πληροφορίες σχετικά με τα αναμενόμενα αποτελέσματα υπό τις διαφορετικές συνθήκες θεραπείας. Επιπλέον, οι παραδοσιακές μέθοδοι συχνά υπολειτουργούν σε περιβάλλοντα όπου τα διαθέσιμα δεδομένα είναι περιορισμένα, κάτι που αποτελεί κοινή πρόκληση στην ιατρική έρευνα όταν μελετώνται σπάνιες παθήσεις, σε μελέτες που επικεντρώνονται σε συγκεκριμένες υποομάδες του πληθυσμού, καθώς και σε διερευνήσεις πρώιμων φαινομένων όπου τα δείγματα είναι εκ των πραγμάτων περιορισμένα. Η παρούσα διατριβή αντιμετωπίζει αυτούς τους περιορισμούς μέσω τεσσάρων κύριων επιστημονικών συνεισφορών: 1. Διερευνούμε τον τρόπο με τον οποίο οι πληροφορίες γειτνίασης μπορούν να ενσωματωθούν συστηματικά σε μοντέλα αιτιακής συμπερασματολογίας, τα οποία βασίζονται σε νευρωνικά δίκτυα με στόχο την βελτίωση της ακρίβειας και της ευρωστίας εκτίμησης. Η μεθοδολογία Nearest Neighboring Information for Causal Inference αποτελεί μια προσέγγιση που ενισχύει υπάρχοντα προηγμένα μοντέλα με συγκεντρωτικές πληροφορίες αποτελεσμάτων από παρόμοιες περιπτώσεις, εμπλουτίζοντας έτσι την ικανότητα των μοντέλων να αποτυπώνουν τοπικά μοτίβα και να βελτιώνουν την εκτίμηση των επιδράσεων μιας παρέμβασης. Επιπλέον, παρουσιάζουμε μια ροή εργασίας για την ανάλυση πραγματικών και παρατηρησιακών δεδομένων, με σκοπό τη διευκόλυνση της έρευνας σχετικά με την ποιότητα ζωής ασθενών με καρκίνο του μαστού. Αυτή η ροή εργασίας έχει αναπτυχθεί στο πλαίσιο του έργου REBECCA και συγκεκριμένα εστιάζει στην επίδειξη της αποτελεσματικότητάς της στην ανάλυση πτυχών ποιότητας ζωής ασθενών με καρκίνο του μαστού που πάσχουν από οστεοπενία και οστεοπόρωση, οι οποίες αποτελούν χρόνιες συννοσηρότητες της θεραπείας καρκίνου του μαστού. 2. Εξερευνούμε την πρόκληση της αιτιακής συμπερασματολογίας υπό συνθήκες περιορισμένης διαθεσιμότητας δεδομένων μέσω της ανάπτυξης ενός πλαισίου που βασίζεται στο μοντέλο Causal-Siamese. Αυτή η προσέγγιση επαναπροσδιορίζει θεμελιωδώς το πρόβλημα αιτιακής συμπερασματολογίας μαθαίνοντας σχέσεις ομοιότητας κατά ζεύγη παρατηρήσεων αντί για άμεσες αντιστοιχίσεις μεταξύ μεταβλητών και αποτελεσμάτων. Αξιοποιώντας τις αρχές της μετρικής μάθησης (metric learning), το μοντέλο Causal-Siamese μπορεί να εκτιμήσει αποτελεσματικά επιδράσεις παρεμβάσεων ακόμη και όταν οι παραδοσιακές απαιτήσεις μεγέθους δείγματος δεν ικανοποιούνται, καθιστώντας το ιδιαίτερα πολύτιμο για εφαρμογές που αφορούν σπάνια γεγονότα ή εξειδικευμένους πληθυσμούς. 3. Εισάγουμε το C-XGBoost, ένα νέο boosting μοντέλο βασισμένο σε δέντρα που συνδυάζει την υψηλή απόδοση του XGBoost σε δομημένα δεδομένα με εξειδικευμένα αρχιτεκτονικά χαρακτηριστικά σχεδιασμένα για εκτίμηση αιτιακών επιδράσεων. Το μοντέλο αυτό αντιμετωπίζει τους περιορισμούς των προσεγγίσεων νευρωνικών δικτύων σε δομημένα δεδομένα, ενώ ενσωματώνει την ικανότητα εκμάθησης αναπαραστάσεων κατάλληλων για την πρόβλεψη αποτελεσμάτων τόσο υπό συνθήκες θεραπείας όσο και υπό συνθήκες ελέγχου. Η ανάπτυξή του περιλαμβάνει μια εξειδικευμένη συνάρτηση απώλειας προσαρμοσμένη για εφαρμογές αιτιακής συμπερασματολογίας. 4. Επεκτείνουμε αυτή την εργασία μέσω του C-XGBoost με στοχευμένη κανονικοποίηση (targeted regularization), το οποίο ενσωματώνει θεωρητικές αρχές από τη μη-παραμετρική θεωρία εκτίμησης, επιτυγχάνοντας τόσο πρακτικές βελτιώσεις στην απόδοση όσο και εγγυήσεις στατιστικά βέλτιστης συμπεριφοράς. Αυτό το προηγμένο πλαίσιο ενσωματώνει συναρτήσεις αποτελεσματικής επιρροής (efficient influence functions) και διαδικασίες στοχευμένης κανονικοποίησης στο παράδειγμα του tree-based boosting, γεφυρώνοντας το χάσμα μεταξύ πρακτικών εφαρμογών μηχανικής μάθησης και αυστηρής στατιστικής θεωρίας.
περισσότερα
Περίληψη σε άλλη γλώσσα
The question of causality "What if?'' has been a cornerstone of scientific thought since antiquity, from Aristotle’s early explorations to modern empirical research. This question encompasses the core challenge of causal inference, which is the understanding of how an intervention or a treatment affects the outcomes within complex systems. The present thesis approaches this challenge through the development of machine learning methodologies for causal effect estimation, with particular emphasis on applications where reliable causal insights can inform critical decision-making processes, particularly in healthcare. Although Randomized Controlled Trials are considered the gold standard for establishing causal relationships through controlled experimentation, they are often impractical due to real-world constraints. Financial limitations, ethical concerns and logistical challenges often necessitate to rely on observational data for causal analysis. This shift from experimental to observat ...
The question of causality "What if?'' has been a cornerstone of scientific thought since antiquity, from Aristotle’s early explorations to modern empirical research. This question encompasses the core challenge of causal inference, which is the understanding of how an intervention or a treatment affects the outcomes within complex systems. The present thesis approaches this challenge through the development of machine learning methodologies for causal effect estimation, with particular emphasis on applications where reliable causal insights can inform critical decision-making processes, particularly in healthcare. Although Randomized Controlled Trials are considered the gold standard for establishing causal relationships through controlled experimentation, they are often impractical due to real-world constraints. Financial limitations, ethical concerns and logistical challenges often necessitate to rely on observational data for causal analysis. This shift from experimental to observational settings introduces significant methodological challenges, including confounding bias, selection bias as well as the inherent absence of counterfactual outcomes, which is well-known as the fundamental problem of causal inference. The emergence of machine learning has provided opportunities to address these challenges of causal inference through advanced data-driven approaches. In particular, neural network-based architectures and tree-based models have demonstrated remarkable capabilities in capturing the complex relationships within observational data, and demonstrate potential for mitigating confounding and capturing treatment effect heterogeneity. However, existing methodologies exhibit significant limitations constraining their practical applicability and theoretical robustness. Contemporary machine learning approaches for causal inference primarily process individual instances independently, thereby failing to exploit valuable information contained in similar instances within the dataset. This limitation becomes especially critical in regions where few observations exist, such as areas with extreme covariate values, uncommon combinations of patient characteristics, or boundary regions of the covariate distribution. In these sparse data regions, neighboring instances with similar characteristics could provide crucial insights about expected outcomes under different treatment conditions. Furthermore, traditional methods often underperform in settings with limited data availability, which is a common challenge in medical research when rare conditions are involved, in studies focused on specific population subgroups as well as in investigations of early-stage phenomena where sample sizes are inherently restricted. This dissertation addresses these limitations through four principal scientific contributions: 1. We investigate how neighboring information can be systematically integrated into neural network-based causal inference models to enhance estimation accuracy and robustness. The Nearest Neighboring Information for Causal Inference methodology represents an approach that augments existing state-of-theart models with aggregated outcome information from similar instances, thereby enriching the models’ capacity to capture local patterns and improve treatment effect estimation. Additionally, we present a data analysis workflow for handling real-world and observational data to facilitate research on breast cancer patients’ quality of life. This workflow is developed in the context of the REBECCA project and specifically focuses on demonstrating its effectiveness in analyzing quality of life aspects of breast cancer patients suffering from osteopenia and osteoporosis, which is a chronic comorbidity of breast cancer treatment. 2. We explore the critical challenge of causal inference under data scarcity through the development of the Causal-Siamese framework. This approach fundamentally reconceptualizes the causal inference problem by learning pairwise similarity relationships rather than direct mappings from covariates to outcomes. By leveraging metric learning principles, the Causal-Siamese model can effectively estimate treatment effects even when traditional sample size requirements are not satisfied, making it particularly valuable for applications involving rare events or specialized populations. 3. We introduce C-XGBoost, a novel tree-based boosting model that combines the superior performance of XGBoost on tabular data with specialized architectural features designed for causal effect estimation. This model addresses the limitations of neural network approaches on structured data while incorporating the ability to learn representations suitable for predicting outcomes across both treatment and control conditions. The development includes a specialized loss function tailored for causal inference applications. 4. We extend this work through C-XGBoost with targeted regularization, which incorporates theoretical principles from non-parametric estimation theory to achieve both practical performance improvements and statistical optimality guarantees. This advanced framework integrates efficient influence functions and targeted regularization procedures into the tree-based boosting paradigm, bridging the gap between practical machine learning applications and rigorous statistical theory.
περισσότερα