Περίληψη
Η Τεχνητή Νοημοσύνη (ΤΝ) έχει σημειώσει σημαντική πρόοδο, μεταβαίνοντας από ερευνητικά πρωτότυπα σε ευρείας κλίμακας εφαρμογές στους τομείς της υγείας, των χρηματοοικονομικών, της ασφάλειας και των μεταφορών. Παρά την επιτυχία τους, τα μοντέλα ΤΝ συχνά λειτουργούν ως αδιαφανείς"μαύρα κουτιά", εγείροντας ανησυχίες σχετικά με την εμπιστοσύνη, την αποδοχή και τον κίνδυνο σε εφαρμογές υψηλού ρίσκου. Η επεξηγήσιμη τεχνητή νοημοσύνη αντιμετωπίζει αυτά τα ζητήματα αναπτύσσοντας μεθόδους που βελτιώνουν την ανθρώπινη κατανόηση σύνθετων μοντέλων. Η παρούσα διατριβή εστιάζει στις σημασιολογικές επεξηγήσεις μέσω αντιπαραδειγμάτων, οι οποίες καθορίζουν τις ελάχιστες τροποποιήσεις εισόδου που απαιτούνται για την αλλαγή της πρόβλεψης ενός μοντέλου ΤΝ. Παρουσιάζεται ένα ανεξάρτητο από το πεδίο εφαρμογής και του υποκείμενου μοντέλου πλαίσιο για τη δημιουργία αντιπαραδειγματικών εξηγήσεων, το οποίο δοκιμάστηκε σε πολλαπλές μορφές δεδομένων, όπως εικόνες, κείμενο και ήχος. Στο πλαίσιο αυτό, εξερευνώνται ...
Η Τεχνητή Νοημοσύνη (ΤΝ) έχει σημειώσει σημαντική πρόοδο, μεταβαίνοντας από ερευνητικά πρωτότυπα σε ευρείας κλίμακας εφαρμογές στους τομείς της υγείας, των χρηματοοικονομικών, της ασφάλειας και των μεταφορών. Παρά την επιτυχία τους, τα μοντέλα ΤΝ συχνά λειτουργούν ως αδιαφανείς"μαύρα κουτιά", εγείροντας ανησυχίες σχετικά με την εμπιστοσύνη, την αποδοχή και τον κίνδυνο σε εφαρμογές υψηλού ρίσκου. Η επεξηγήσιμη τεχνητή νοημοσύνη αντιμετωπίζει αυτά τα ζητήματα αναπτύσσοντας μεθόδους που βελτιώνουν την ανθρώπινη κατανόηση σύνθετων μοντέλων. Η παρούσα διατριβή εστιάζει στις σημασιολογικές επεξηγήσεις μέσω αντιπαραδειγμάτων, οι οποίες καθορίζουν τις ελάχιστες τροποποιήσεις εισόδου που απαιτούνται για την αλλαγή της πρόβλεψης ενός μοντέλου ΤΝ. Παρουσιάζεται ένα ανεξάρτητο από το πεδίο εφαρμογής και του υποκείμενου μοντέλου πλαίσιο για τη δημιουργία αντιπαραδειγματικών εξηγήσεων, το οποίο δοκιμάστηκε σε πολλαπλές μορφές δεδομένων, όπως εικόνες, κείμενο και ήχος. Στο πλαίσιο αυτό, εξερευνώνται διάφορες αλγοριθμικές προσεγγίσεις, συμπεριλαμβανομένων των νευρωνικών δικτύων γραφών για δομημένα δεδομένα και μη νευρωνικών τεχνικών βελτιστοποίησης για τη σύνθεση αντιπαραδειγμάτων με την χρήση γραφών γνώσης. Πέρα από τη δημιουργία, η παρούσα εργασία εισάγει μια νέα μεθοδολογία αξιολόγησης για την εκτίμηση της βελτιστότητας των αλγορίθμων παραγωγής επεξηγήσεων μέσω αντιπαραδειγμάτων,αξιοποιώντας μια προσέγγιση εμπνευσμένη από την τεχνική της αντίστροφης μετάφρασης. Αυτή η μέθοδος αξιολόγησης παρέχει βαθύτερη κατανόηση της σχέσης μεταξύ της ελαχιστοποίησης των τροποποιήσεων και της σημασιολογικής εγκυρότητάς τους, αποκαλύπτοντας ιδιότητες των αλγορίθμων δημιουργίας αντιπαραδειγμάτων που θα παρέμεναν αθέατες υπό τα παραδοσιακά πρότυπα αξιολόγησης. Επιπλέον, το προτεινόμενο πλαίσιο επεκτείνεται πέρα από τις κλασικές εφαρμογές της επεξηγησιμότητας. Χρησιμοποιείται για την ανίχνευση παραισθήσεων σε μεγάλα οπτικο-γλωσσικά Μοντέλα και για τη λεπτομερή αξιολόγηση γενετικών μοντέλων σε εικόνες και οπτικοποίηση ιστοριών. Επιπρόσθετα, διερευνώνται οι συλλογιστικές ικανότητες των μεγάλων γλωσσικών μοντέλων, ιδιαίτερα στην επίλυση γρίφων, όπου αποδεικνύεται ότι η χρήση αντιπαραδειγμάτων στην είσοδο βελτιώνει την απόδοσή τους. Παράλληλα, μέσα από αντιπαραδειγματικές επεξηγήσεις αναδεικνύεται η επίδραση γνωστών γνωσιακών προκαταλήψεων, ιδίως όταν τα εν λόγω μοντέλα αξιοποιούνται ως συστήματα συστάσεων. Εκτενείς πειραματικές αξιολογήσεις επικυρώνουν την αποτελεσματικότητα του πλαισίου σε διαφορετικούς τομείς, αποδεικνύοντας τη δυνατότητα του να ενισχύσει την ερμηνευσιμότητα, την αξιοπιστία και τη γενίκευση τόσο στις επεξηγήσιμες εφαρμογές ΤΝ όσο και σε άλλες περιοχές της τεχνητής νοημοσύνης.
περισσότερα
Περίληψη σε άλλη γλώσσα
Artificial Intelligence (AI) has made significant strides, transitioning from research prototypes to large-scale deployments in healthcare, finance, security, and transportation. Despite their success, AI models often function as opaque black boxes, raising concerns about trust, adoption, and risk in high-stakes applications. Explainable AI (XAI) addresses these issues by developing methods to enhance human interpretability of complex models. This dissertation focuses on counterfactual explanations, which determine the minimal input modifications required to alter an AI model’s prediction. A domain-agnostic, black-box framework for counterfactual generation is introduced, applicable across multiple data modalities, including images, text, and audio. Within this framework, various algorithmic approaches are explored, including Graph Neural Networks (GNNs) for structured data and non-neural optimization techniques for counterfactual synthesis. Beyond generation, this work introduces a no ...
Artificial Intelligence (AI) has made significant strides, transitioning from research prototypes to large-scale deployments in healthcare, finance, security, and transportation. Despite their success, AI models often function as opaque black boxes, raising concerns about trust, adoption, and risk in high-stakes applications. Explainable AI (XAI) addresses these issues by developing methods to enhance human interpretability of complex models. This dissertation focuses on counterfactual explanations, which determine the minimal input modifications required to alter an AI model’s prediction. A domain-agnostic, black-box framework for counterfactual generation is introduced, applicable across multiple data modalities, including images, text, and audio. Within this framework, various algorithmic approaches are explored, including Graph Neural Networks (GNNs) for structured data and non-neural optimization techniques for counterfactual synthesis. Beyond generation, this work introduces a novel evaluation methodology for assessing counterfactual optimality, specifically leveraging a back-translation inspired approach to verify whether the applied modifications are truly minimal. This evaluation method provides deeper insights into the balance between the minimality of edits and their semantic validity, revealing properties of counterfactual generation algorithms that would otherwise remain obscured. Additionally, the proposed framework extends beyond traditional XAI applications. It is leveraged for hallucination detection in Large Vision-Language Models (LVLMs) and fine-grained evaluation of generative models in both image and story generation. Furthermore, Large Language Models (LLM) reasoning capabilities are investigated, particularly in riddle-solving, where counterfactual-based interventions enhance logical reasoning in large-scale language models. At the same time, through counterexample-based explanations, the influence of well-known cognitive biases is highlighted, especially when such models are employed as recommendation systems. Comprehensive empirical evaluations validate the framework’s effectiveness across diverse domains, demonstrating its ability to enhance interpretability, robustness, and generalizability in both explainability and downstream AI applications.
περισσότερα