Περίληψη
Στα πλαίσια της παρούσας διατριβής μελετήθηκε το πρόβλημα της απάντησης ερωτήσεων για ερωτήσεις γεγονότων και κλειστού τύπου ερωτήσεις ναι/όχι. Επίσης, παρουσιάζονται εφαρμογές στον τομέα της βιοιατρικής και σε ανοιχτού τομέα συστημάτων απάντησης ερωτήσεων. Τα μοντέλα απάντησης ερωτήσεων έχουν ως στόχο τη γρήγορη εξυπηρέτηση των χρηστών. Αναλυτικά, ένα τέτοιο μοντέλο δέχεται ως είσοδο μία ερώτηση σε φυσική γλώσσα και είναι υπεύθυνο για την επιστροφή μίας ευανάγνωστης και κατανοητής απάντησης προς το χρήστη. Σε αντίθεση με τα κλασσικά συστήματα ανάκτησης πληροφορίας ένα μοντέλο απάντησης ερωτήσεων είναι ικανό να επιστρέψει ένα συγκεκριμένο τμήμα κειμένου που θα ικανοποιεί τις ανάγκες των χρηστών. Η ιστορία των συστημάτων απάντησης ερωτήσεων είναι μεγάλη και ξεκινάει το 1960 όπου πρωτοεμφανίστηκαν τα πρώτα συστήματα για περιορισμένη χρήση σε συγκεκριμένους τομείς. Στην πάροδο του χρόνου πολλές αρχιτεκτονικές προτάθηκαν και διάφορα παραδείγματα υιοθετήθηκαν. Ένα σημαντικό ορόσημο ήταν ό ...
Στα πλαίσια της παρούσας διατριβής μελετήθηκε το πρόβλημα της απάντησης ερωτήσεων για ερωτήσεις γεγονότων και κλειστού τύπου ερωτήσεις ναι/όχι. Επίσης, παρουσιάζονται εφαρμογές στον τομέα της βιοιατρικής και σε ανοιχτού τομέα συστημάτων απάντησης ερωτήσεων. Τα μοντέλα απάντησης ερωτήσεων έχουν ως στόχο τη γρήγορη εξυπηρέτηση των χρηστών. Αναλυτικά, ένα τέτοιο μοντέλο δέχεται ως είσοδο μία ερώτηση σε φυσική γλώσσα και είναι υπεύθυνο για την επιστροφή μίας ευανάγνωστης και κατανοητής απάντησης προς το χρήστη. Σε αντίθεση με τα κλασσικά συστήματα ανάκτησης πληροφορίας ένα μοντέλο απάντησης ερωτήσεων είναι ικανό να επιστρέψει ένα συγκεκριμένο τμήμα κειμένου που θα ικανοποιεί τις ανάγκες των χρηστών. Η ιστορία των συστημάτων απάντησης ερωτήσεων είναι μεγάλη και ξεκινάει το 1960 όπου πρωτοεμφανίστηκαν τα πρώτα συστήματα για περιορισμένη χρήση σε συγκεκριμένους τομείς. Στην πάροδο του χρόνου πολλές αρχιτεκτονικές προτάθηκαν και διάφορα παραδείγματα υιοθετήθηκαν. Ένα σημαντικό ορόσημο ήταν όταν εμφανίστηκε ένα καλά σχεδιασμένο μοντέλο απάντησης ερωτήσεων της IBM ικανό να κερδίσει σε διαγωνισμό ανθρώπους συμμετέχοντες. Σήμερα τα μοντέλα αυτά είναι πιο ικανά από ποτέ και βασίζονται σε τεχνικές βαθιάς μάθησης. Ένα σύγχρονο μοντέλο απάντησης ερωτήσεων είναι μία περίπλοκη συνάρτηση και οι παράμετροι μπορούν και προσαρμόζονται λαμβάνοντας υπόψιν τεράστιες συλλογές ακατέργαστου κειμένου. Προβλήματα του παρελθόντος έχουν επιλυθεί τα τελευταία λίγα χρόνια και νέες προκλήσεις εμφανίζονται για την επιστημονική κοινότητα. Η μελέτη μας επικεντρώνεται τόσο σε κλασσικές αρχιτεκτονικές όπου δεσπόζουσα θέση έχουν τα παραδοσιακά μοντέλα μηχανικής μάθησης όπως η γραμμική παλινδρόμηση και οι μηχανές διανυσμάτων υποστήριξης και η εξαγωγή χαρακτηριστικών όσο και σε πιο σύγχρονες τεχνικές. Στις τελευταίες χρησιμοποιούνται προ-εκπαιδευμένα γλωσσικά μοντέλα εκπαιδευμένα σε τεράστιες κειμενικές πηγές που κατανοούν τη γλώσσα βρίσκοντας συντακτικές και σημασιολογικές σχέσεις μεταξύ των συστατικών μερών που απαρτίζουν την είσοδο στα μοντέλα. Η αρχιτεκτονική των μοντέλων επιτρέπει τη μεταφορά γνώσης σε άλλες εργασίες όπως είναι το πρόβλημα της απάντησης ερωτήσεων. Τρεις ολοκληρωμένες επιστημονικές εργασίες παρουσιάζονται στη διατριβή που έχουν επίσημα δημοσιευτεί σε επιστημονικά περιοδικά. Στην πρώτη εργασία παρουσιάζουμε ένα μοντέλο απάντησης ερωτήσεων για την περιοχή της βιοιατρικής. Αναλυτικά, δείχνουμε ότι η προσέγγιση που ακολουθήσαμε μπορεί να οδηγήσει σε καλύτερα αποτελέσματα συγκριτικά με άλλες τεχνικές που παρουσιάστηκαν για το ίδιο πρόβλημα με το ίδιο σύνολο δεδομένων. Η συνεισφορά μας ήταν η δημιουργία ενός εύρωστου μοντέλου απάντησης ερωτήσεων όπου με ελάχιστες τροποποιήσεις μπορεί να χρησιμοποιηθεί σε οποιαδήποτε περιοχή πέρα από τη βιοατρική. Οι πηγές και τα διανύσματα λέξεων που εκμεταλλευτήκαμε σε συνδυασμό με παραδοσιακά μοντέλα μηχανικής μάθησης δεν είχαν εξεταστεί στο παρελθόν από άλλες εργασίες. Η δεύτερη εργασία βασίζεται στη διαίσθηση ότι κατά την εκπαίδευση μοντέλων σε κάποιες εργασίες, τα μοντέλα θα μάθουν σημαντικές σχέσεις και μοτίβα που μπορούν ύστερα να φανούν χρήσιμη γνώση για την πρόβλεψη απαντήσεων. Εφαρμόζοντας αυτό το σκεπτικό στην απάντηση κλειστού τύπου ερωτήσεων δείξαμε ότι μία τέτοια προσέγγιση μπορεί να βελτιώσει την απόδοση των μοντέλων. Συγκεκριμένα, εξετάσαμε το ενδεχόμενο δημιουργίας τεχνητών εργασιών που θα υποβοηθήσουν τα μοντέλα απάντησης ερωτήσεων. Τα αποτελέσματα έδειξαν ότι και οι τρεις εργασίες που προτείνουμε μπορούν να ενισχύσουν την απόδοση των μοντέλων ενώ η ποιοτική ανάλυση έδειξε ότι τα μοντέλα έχουν την ικανότητα να μάθουν συγκεκριμένες σχέσεις μεταξύ της ερώτησης και του σχετικού κείμενου. Τέλος, η τρίτη εργασία στηρίζεται στο σκεπτικό ότι όσες περισσότερες εργασίες μπορεί να μάθει ένα μοντέλο στο ίδιο σύνολο δεδομένων τόσο πιο σίγουρο να έχει πιο βαθιά κατανόηση το μοντέλο στο σύνολο δεδομένων. Εξετάσαμε αυτή την άποψη πάλι στο πρόβλημα απάντησης κλειστού τύπου ερωτήσεων και δείξαμε ότι αν ένα σύνθετο μοντέλο μπορεί ταυτόχρονα να εκπαιδευτεί στο πρόβλημα απάντησης ερωτήσεων αλλά και στην εξαγωγή τμήματος κειμένου που μπορεί να θεωρηθεί ως απόδειξη αλήθειας της ερώτησης τότε το μοντέλο προβλέπει με μεγαλύτερη ακρίβεια τις δοσμένες ερωτήσεις. Επίσης, η ποιοτική ανάλυση έδειξε ότι αυτά τα τμήματα κειμένου μπορεί να είναι χρήσιμη πηγή γνώσης για τους χρήστες ενώ ταυτόχρονα τους παρέχουν τη δυνατότητα κατανόησης της απάντησης που πήρανε.
περισσότερα
Περίληψη σε άλλη γλώσσα
Nowadays, advanced services for extracting quick and precise information are required. Although search engines provide a flexible way for users to search for multimedia data, most of the time users must spend more time creating complex or multiple queries to get the information they demand. Question Answering may be able to solve this problem. The purpose of this thesis is to present research directions and novel ideas for dealing with the question-answering problem. A question-answering system provides a human-readable answer to a question posed by a user in natural language. Many approaches to dealing with the problem have been proposed; however, there is still room for improvement and new insights. Our research interests are in machine learning and natural language processing techniques, which can provide advanced methods and approaches for developing trustworthy question-answering systems when combined.In particular, we used traditional machine learning techniques to define a rich ...
Nowadays, advanced services for extracting quick and precise information are required. Although search engines provide a flexible way for users to search for multimedia data, most of the time users must spend more time creating complex or multiple queries to get the information they demand. Question Answering may be able to solve this problem. The purpose of this thesis is to present research directions and novel ideas for dealing with the question-answering problem. A question-answering system provides a human-readable answer to a question posed by a user in natural language. Many approaches to dealing with the problem have been proposed; however, there is still room for improvement and new insights. Our research interests are in machine learning and natural language processing techniques, which can provide advanced methods and approaches for developing trustworthy question-answering systems when combined.In particular, we used traditional machine learning techniques to define a rich set of features for factoid question-answering. In addition, we investigated deep learning techniques for developing more advanced question-answering systems for yes/no questions. Finally, we tested and experimented with a variety of biomedical tools in order to propose solutions to biomedical question-answering. We proposed a conventional QA system for factoid question-answering that can extract a list of candidate answers by utilizing several biomedical resources. To create a comprehensive feature set, we combined hand-crafted features with word embeddings. Initially, we developed a linear function that did not involve any trainable weights to rank the candidate answers. Later, we incorporated a machine learning model that consisted of a group of supervised machine learning models. This ensemble model selected the most suitable candidate answer based on the given question.In a well-known dataset for biomedical question-answering, the proposed system achieved state-of-the-art performance. The majority of this dissertation's content is concerned with yes/no question answering, and we proposed several approaches for dealing with the problem and providing new insights to the community. In particular, we emphasized the role of sentiment in yes/no question-answering and how it can be used to improve the results of deep learning models. We also demonstrated how to create artificial tasks and datasets for fine-tuning a pre-trained language model in order to improve the performance of a yes/no question-answering model. Finally, we used the multitask learning technique to show that when a model is trained on both this task and the yes/no question answering task, the model's accuracy is higher than when the technique is not used. Our experience with the problem of question-answering led us to develop an end-to-end question-answering system for the biomedical domain. The system returned a set of biomedical articles from the PubMed biomedical resource using information retrieval techniques. The articles were then processed further, and a set of passages most relevant to the given question was returned. A method searched the passages for the most relevant answer to the user. The system recognized factoid questions and provided appropriate answers.
περισσότερα