Improving language model representations for biomedical relation extraction and low-resource languages

Η παρούσα διατριβή παρουσιάζει σημαντικές συνεισφορές στα πεδία της Επεξεργασίας Φυσικής Γλώσσας (NLP) και της Μηχανικής Μάθησης (ML) σε τρεις διακριτούς τομείς. Η διατριβή ξεκινά με ένα εισαγωγικό μέρος, που αποτελείται από δύο κεφάλαια, ακολουθούμενα από τρία βασικά κεφάλαια, το καθένα από τα οποία εξετάζει συγκεκριμένα ερευνητικά προβλήματα και παρέχει νέες λύσεις. Το εισαγωγικό μέρος θέτει τις βάσεις για ολόκληρη τη διατριβή εισάγοντας βασικές έννοιες στο ML και το NLP. Καλύπτει τις βασικές αρχές των κατηγοριών Μηχανικής Μάθησης, συμπεριλαμβανομένων της μάθησης με επίβλεψη, χωρίς επίβλεψη και της ενισχυτικής μάθησης. Επιπλέον, εμβαθύνει στις έννοιες του NLP, όπως τη μοντελοποίηση γλώσσας, την εξαγωγή σχέσεων (RE) και τις προκλήσεις των γλωσσών χαμηλών πόρων (LRLs). Το κεφάλαιο εισάγει επίσης κρίσιμα αρχιτεκτονικά στοιχεία όπως τον Transformer και τους Γράφγους Γνώσης (KGs) στη δομημένη αναπαράσταση γνώσης. Το τρίτο κεφάλαιο εστιάζει στην προώθηση του πεδίου του βιοϊατρικού NLP προτείνοντας νέες τεχνικές που βασίζονται σε Γλωσσικά Μοντέλα (LM) για την εξαγωγή αλληλεπίδρασης μεταξύ φαρμάκων (DDI). Αυτό το κεφάλαιο πραγματεύεται το πολύπλοκο έργο του προσδιορισμού των αλληλεπιδράσεων μεταξύ των φαρμάκων στη βιοϊατρική βιβλιογραφία. Αναλύει τη διαδικασία εξαγωγής DDI σε δύο επιμέρους εργασίες: ταξινόμηση αλληλεπιδράσεων με βάση δεδομένες οντότητες φαρμάκων και εξαγωγή οντοτήτων φαρμάκων από κείμενα πριν από την ταξινόμηση των αλληλεπιδράσεών τους. Τα μοντέλα που αναπτύχθηκαν σε αυτό το κεφάλαιο ξεπερνούν τις υπάρχουσες προσεγγίσεις αιχμής όσον αφορά την απόδοση, τις δυνατότητες γενίκευσης και προσπαθούν να παρέχουν ερμηνευσιμότητα. Τα σύνολα δεδομένων αναφοράς χρησιμοποιούνται για την πειραματική επικύρωση της υπεροχής τους. Το τέταρτο κεφάλαιο διερευνά μεθόδους για το συνδυασμό πολλαπλών πηγών πληροφοριών ή εργασιών σε μια ενιαία αρχιτεκτονική, ιδιαίτερα στο πλαίσιο γλωσσών χαμηλών πόρων και εργασιών στο NLP. Το κεφάλαιο εισάγει νέες τεχνικές βασισμένες σε LM προσαρμοσμένες για εργασίες Αναγνώρισης Ανθρώπινων Αξιών και Ανάλυσης Επιδραστικών Κειμένων (ATA). Παρουσιάζει καινοτόμες στρατηγικές προεκπαίδευσης δεύτερης φάσης και ένα ενιαίο πλαίσιο με κοινές παραμέτρους για ταξινόμηση πολλαπλών εργασιών. Η έρευνα περιλαμβάνει τη δημιουργία ενός νέου συνόλου δεδομένων γλώσσας χαμηλών πόρων και καταδεικνύει την ανώτερη απόδοση των μοντέλων σε διάφορα προβλήματα μέσω πειραματικών αξιολογήσεων. Το πέμπτο κεφάλαιο εμβαθύνει στη βελτίωση των αναπαραστάσεων LM για γλώσσες χαμηλών πόρων, με ιδιαίτερη έμφαση στην ελληνική γλώσσα. Το κεφάλαιο εισάγει διάφορα ελληνικά σύνολα δεδομένων και αντιμετωπίζει προκλήσεις όπως μη ισορροπημένα δεδομένα στην ανάλυση συναισθήματος βάσει πτυχών (οντοτήτων). Διερευνά προσαρμοσμένη στον τομέα αντιθετική μάθηση και προσεγγίσεις προ-εκπαίδευσης LM πολλαπλών σταδίων για τη βελτίωση της ποιότητας των αναπαραστάσεων LM. Η έρευνα καταδεικνύει σημαντικές βελτιώσεις στην απόδοση σε μια σειρά εργασιών ταξινόμησης στην ελληνική γλώσσα. Στο τελικό κεφάλαιο, η διατριβή συνοψίζει τα βασικά ευρήματα και τις συνεισφορές από κάθε κεφάλαιο. Συζητά επίσης πιθανές κατευθύνσεις για μελλοντική έρευνα που ευθυγραμμίζονται με τους στόχους και τις γνώσεις που αποκτήθηκαν σε όλη τη διατριβή. Αυτή η διατριβή στοχεύει να προωθήσει τα πεδία του βιοϊατρικού NLP, της συνέργειας πληροφοριών σε περιβάλλοντα χαμηλών πόρων και των αναπαραστάσεων LM για LRL, με επιπτώσεις στην υγειονομική περίθαλψη, το πολυγλωσσικό NLP και την κατανόηση γλώσσας χαμηλών πόρων.

περισσότερα

Περίληψη σε άλλη γλώσσα

This thesis presents significant contributions to the fields of Natural Language Processing (NLP) and Machine Learning (ML) in three distinct areas. The thesis begins with an introductory part, comprised of two chapters, followed by three core chapters, each addressing specific research problems and providing novel solutions. The introductory part lays the groundwork for the entire thesis by introducing key concepts in ML and NLP. It covers the fundamentals of Machine Learning paradigms, including Supervised, Unsupervised, and Reinforcement Learning. Additionally, it delves into NLP concepts, such as Language Modeling (LM), Relation Extraction (RE), and the challenges of Low-Resource Languages (LRLs). The chapter also introduces critical architectural elements like the Transformer and the significance of Knowledge Graphs (KGs) in structured knowledge representation. The third chapter focuses on advancing the field of biomedical NLP by proposing novel Language Model (LM)-based techniques for Drug-Drug Interaction (DDI) extraction. This chapter addresses the complex task of identifying interactions between drugs in biomedical literature. It breaks down the DDI extraction process into two subtasks: classifying interactions based on given drug entities and extracting drug entities from text before classifying their interactions. The models developed in this chapter outperform existing state-of-the-art approaches in terms of performance, generalization capabilities, and attempt to provide interpretability. Benchmark datasets are used to validate their superiority experimentally. The fourth chapter explores methods for combining multiple sources of information or tasks within a single architecture, particularly in the context of low-resource languages and tasks in NLP. The chapter introduces novel LM-based techniques tailored for Human Values Identification and Affective Text Analysis (ATA) tasks. It presents innovative second-stage pre-training strategies and a unified framework with shared parameters for multi-task classification. The research includes the creation of a new low-resource language dataset and demonstrates the superior performance of the models in various problems through experimental evaluations. The fifth chapter delves into improving LM representations for low-resource languages, with a specific emphasis on the Greek language. The chapter introduces diverse Greek datasets and addresses challenges like imbalanced data in Aspect-Based Sentiment Analysis. It explores domain-adapted contrastive learning and multi-stage LM approaches to enhance the quality of LM representations. The research demonstrates substantial performance improvements across a range of classification tasks in the Greek language. In the concluding chapter, the thesis summarizes the key findings and contributions from each chapter. It also discusses potential directions for future research aligned with the objectives and insights gained throughout the thesis. This thesis aims to advance the fields of biomedical NLP, information synergy in low-resource settings, and LM representations for LRLs, with implications for healthcare, multilingual NLP, and low-resource language understanding.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (5.21 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/55364
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/55364
ND	55364
Εναλλακτικός τίτλος	Improving language model representations for biomedical relation extraction and low-resource languages
Συγγραφέας	Ζαΐκης, Δημήτριος (Πατρώνυμο: Τραιανός)
Ημερομηνία	2023
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Βλαχάβας Ιωάννης Βασιλειάδης Νικόλαος Τσουμάκας Γρηγόριος Βακάλη Αθηνά Μεδίτσκος Γεώργιος Κουμπαράκης Μανόλης Κερμανίδου Κάτια-Λήδα
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη
Λέξεις-κλειδιά	Γλωσσικά μοντέλα; Επεξεργασία φυσικής γλώσσας; Βαθιά μάθηση; Μηχανική μάθηση; Τεχνιτή νοημοσύνη; Τεχνιτά νευρωνικά δίκτυα
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

"Βελτίωση αναπαραστάσεων γλωσσικών μοντέλων για εξαγωγή βιοϊατρικών σχέσεων και γλώσσες χαμηλών πόρων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .