Περίληψη
Η παρούσα διατριβή επικεντρώνεται στην ενδελεχή μελέτη, εφαρμογή και αξιολόγηση σύγχρονων μεθόδων επεξεργασίας φυσικής γλώσσας (Natural Language Processing – NLP), εστιάζοντας ιδιαίτερα σε μοντέλα τύπου Transformer, σε τεχνικές βαθιάς μάθησης (deep learning), σε υβριδικά σχήματα με κλασικούς ταξινομητές και σε μεθόδους ερμηνευσιμότητας (explainability). Στο πλαίσιο εκπόνησης της διατριβής έχουν προκύψει εννέα ανεξάρτητες αλλά αλληλένδετες επιστημονικές εργασίες, οι οποίες καλύπτουν ένα ευρύ φάσμα ερευνητικών προσεγγίσεων και εφαρμογών: από την κατηγοριοποίηση κειμένου με τη μέθοδο Zero-Shot, μέχρι την ανάλυση συναισθήματος, την ταξινόμηση ελληνόγλωσσων δεδομένων σε πραγματικά περιβάλλοντα και τη συγκριτική αξιολόγηση συνδυαστικών μοντέλων (ensembles ). Οι πειραματικές εφαρμογές βασίστηκαν κυρίως σε αγγλόφωνα σύνολα δεδομένων -- όπως το Twitter US Airline Sentiment και το BBC Text Dataset κ.α. - ενώ τρεις μελέτες εφαρμόστηκαν σε ελληνικά δεδομένα από το Helpdesk του Πανελλήνιου Σχολικού ...
Η παρούσα διατριβή επικεντρώνεται στην ενδελεχή μελέτη, εφαρμογή και αξιολόγηση σύγχρονων μεθόδων επεξεργασίας φυσικής γλώσσας (Natural Language Processing – NLP), εστιάζοντας ιδιαίτερα σε μοντέλα τύπου Transformer, σε τεχνικές βαθιάς μάθησης (deep learning), σε υβριδικά σχήματα με κλασικούς ταξινομητές και σε μεθόδους ερμηνευσιμότητας (explainability). Στο πλαίσιο εκπόνησης της διατριβής έχουν προκύψει εννέα ανεξάρτητες αλλά αλληλένδετες επιστημονικές εργασίες, οι οποίες καλύπτουν ένα ευρύ φάσμα ερευνητικών προσεγγίσεων και εφαρμογών: από την κατηγοριοποίηση κειμένου με τη μέθοδο Zero-Shot, μέχρι την ανάλυση συναισθήματος, την ταξινόμηση ελληνόγλωσσων δεδομένων σε πραγματικά περιβάλλοντα και τη συγκριτική αξιολόγηση συνδυαστικών μοντέλων (ensembles ). Οι πειραματικές εφαρμογές βασίστηκαν κυρίως σε αγγλόφωνα σύνολα δεδομένων -- όπως το Twitter US Airline Sentiment και το BBC Text Dataset κ.α. - ενώ τρεις μελέτες εφαρμόστηκαν σε ελληνικά δεδομένα από το Helpdesk του Πανελλήνιου Σχολικού Δικτύου (ΠΣΔ), με στόχο την κατηγοριοποίηση αιτημάτων και ερωτημάτων. Η επιλογή διαφορετικών γλωσσικών συνόλων δεδομένων επέτρεψε την αξιολόγηση της γενίκευσης των μοντέλων και την ανίχνευση περιορισμών σε λιγότερο υποστηριζόμενες γλώσσες, όπως η ελληνική. Ένα από τα κύρια ερευνητικά ερωτήματα της διατριβής αφορά στη συγκριτική απόδοση των προεκπαιδευμένων μοντέλων Transformers, όπως τα BERT, ALBERT, DeBERTa, RoBERTa, DistilBERT, XLM-R, Pythia, T5 και GPT2, είτε σε Zero-Shot σενάρια είτε κατόπιν fine-tuning, σε συνδυασμό με κλασικούς ταξινομητές όπως XGBoost ή μέσω ενοποιητικών μηχανισμών όπως το Majority Voting και το Soft Voting. Σε περιπτώσεις όπως αυτή της πολυγλωσσικής ταξινόμησης ελληνικών ερωτημάτων, στο πλαίσιο της διατριβής προτάθηκαν αρχιτεκτονικές που συνδυάζουν Transformer μοντέλα με TCN (Temporal Convolutional Networks) και πρόσθετα επίπεδα attention, επιτυγχάνοντας σημαντική βελτίωση σε όλους τους δείκτες αξιολόγησης. Επιπλέον, αναδεικνύεται με σαφήνεια ότι τα σχήματα Majority Voting υπερτερούν σταθερά έναντι των Soft Voting, σε datasets με πολυπλοκότητες όπως η ειρωνεία, η αβεβαιότητα, ή η ανισορροπία κατηγοριών. Η εργασία “From Transformers to Voting Ensembles for Interpretable Sentiment Classification” καταδεικνύει, με ισχυρή στατιστική τεκμηρίωση (Friedman και Nemenyi tests), ότι η απόδοση πολλών ταξινομητών δεν εμφανίζει στατιστικά σημαντικές διαφορές, γεγονός που ενισχύει την ανάγκη για αξιολόγηση με βάση το πραγματικό περιεχόμενο και τη δομή του εκάστοτε dataset και όχι μόνο μετρικούς όρους. Ιδιαίτερο βάρος δίνεται στην αξιολόγηση των μοντέλων επάνω στο ίδιο dataset, γεγονός που επιτρέπει αυστηρές και μεθοδολογικά συνεπείς συγκρίσεις. Ένα σημαντικό εύρημα της διατριβής αφορά την υπεροχή του μοντέλου Bi-LSTM με LIME explainability σε όρους ακρίβειας (93,5%), F1-score (93,4%) και ROC AUC (98,2%), το οποίο υπερβαίνει τις επιδόσεις προηγμένων Transformer-based ensembles, όπως το GPT2 + T5 + Pythia (Accuracy: 91,7%). Το εύρημα αυτό ενισχύει τις ενστάσεις της βιβλιογραφίας σχετικά με την "αυτονόητη" υπεροχή των προεκπαιδευμένων μοντέλων και προτάσσει την ανάγκη για συμφραζόμενη επιλογή αρχιτεκτονικής, ανάλογα με τη φύση των δεδομένων, την πολυπλοκότητα του προβλήματος και τις απαιτήσεις διαφάνειας. Η επιλογή του κατάλληλου μοντέλου (π.χ. Transformer ή άλλο) δεν πρέπει να γίνεται απόλυτα ή γενικά, αλλά με βάση τα συμφραζόμενα, - δηλαδή το πλαίσιο εφαρμογής, τη φύση των δεδομένων, το μέγεθος των instances, την ισορροπία των τάξεων, την ανάγκη για εξηγησιμότητα, και το διαθέσιμο υπολογιστικό κόστος. Η συμβολή της διατριβής είναι τόσο θεωρητική όσο και πρακτική: συνδυάζει διαφορετικά πειραματικά σενάρια, προσφέρει τεκμηριωμένες κατευθύνσεις για τη χρήση και αξιολόγηση μοντέλων NLP σε εφαρμογές με υψηλές απαιτήσεις ακρίβειας και ερμηνευσιμότητας, και υποδεικνύει τα πλεονεκτήματα και τα όρια κάθε προσέγγισης. Ιδιαίτερο ερευνητικό ενδιαφέρον παρουσιάζει η παρατήρηση ότι η απόδοση των μοντέλων επηρεάζεται ενδεχομένως από το μήκος των instances (μήκος κειμένων), ένα στοιχείο που δεν έχει επαρκώς μελετηθεί στη διεθνή βιβλιογραφία. Μελλοντική εργασία μπορεί να επικεντρωθεί στη συστηματική διερεύνηση της σχέσης μεταξύ μήκους των κειμένων και επιδόσεων μοντέλων, σε συνδυασμό με παραμέτρους όπως η πολυπλοκότητα της γλώσσας, η σαφήνεια των κατηγοριών και η ερμηνευσιμότητα των αποφάσεων. Συνολικά, η παρούσα διατριβή φιλοδοξεί να συμβάλλει ουσιαστικά στην εμπειρική τεκμηρίωση της αποτελεσματικότητας των σύγχρονων μεθόδων NLP, προσφέροντας σαφείς κατευθύνσεις για τη βελτιστοποίηση μοντέλων, την επιλογή αρχιτεκτονικών και την ενίσχυση της αξιοπιστίας και διαφάνειας σε εφαρμογές κατανόησης φυσικής γλώσσας.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis deals with the thorough study, application, and evaluation of modern natural language processing methods (Natural Language Processing – NLP), focusing in particular on Transformer models, deep learning techniques, hybrid schemes with classical classifiers, and explainability methods. The study is structured into nine independent but interrelated scientific papers, covering a wide range of research approaches and applications: from text categorization using the Zero-Shot method to sentiment analysis, classification of Greek-language data in real environments, and comparative evaluation of ensemble models. The experimental applications were mainly based on English-language datasets - such as Twitter US Airline Sentiment and the BBC Text Dataset - while three studies were applied to Greek data from the PSN Helpdesk, with the aim of categorizing requests and queries. The selection of different language datasets allowed for the evaluation of model generalization and the detectio ...
This thesis deals with the thorough study, application, and evaluation of modern natural language processing methods (Natural Language Processing – NLP), focusing in particular on Transformer models, deep learning techniques, hybrid schemes with classical classifiers, and explainability methods. The study is structured into nine independent but interrelated scientific papers, covering a wide range of research approaches and applications: from text categorization using the Zero-Shot method to sentiment analysis, classification of Greek-language data in real environments, and comparative evaluation of ensemble models. The experimental applications were mainly based on English-language datasets - such as Twitter US Airline Sentiment and the BBC Text Dataset - while three studies were applied to Greek data from the PSN Helpdesk, with the aim of categorizing requests and queries. The selection of different language datasets allowed for the evaluation of model generalization and the detection of limitations in less supported languages, such as Greek. One of the main findings of the thesis concerns the comparative performance of pre-trained Transformers models, such as DeBERTa, BERT, RoBERTa, DistilBERT, XLM-R, and GPT2, either in zero-shot scenarios or after fine-tuning, in combination with classical classifiers such as XGBoost or through aggregation mechanisms such as Majority Voting and Soft Voting. In cases such as multilingual classification of Greek queries, architectures combining Transformer models with TCN (Temporal Convolutional Networks) and additional attention layers were proposed, achieving significant improvement in all evaluation metrics. Furthermore, it is clearly shown that Majority Voting schemes consistently outperform Soft Voting in datasets with complexities such as irony, uncertainty, or category imbalance. The paper "From Transformers to Voting Ensembles for Interpretable Sentiment Classification" demonstrates, with strong statistical evidence (Friedman and Nemenyi tests), that the performance of many classifiers does not show statistically significant differences, which reinforces the need for evaluation based on the actual content and structure of each dataset and not just metric terms.11 Particular emphasis is placed on evaluating models on the same dataset, which allows for rigorous and methodologically consistent comparisons. An impressive finding of the study concerns the superiority of the Bi-LSTM model with LIME explainability in terms of accuracy (93.5%), F1-score (93.4%), and ROC AUC (98.2%), which exceeds the performance of advanced Transformer-based ensembles, such as GPT2 + T5 + Pythia (Accuracy: 91.7%). This finding reinforces the objections in the literature regarding the "self-evident" superiority of pre-trained models and highlights the need for context-sensitive architecture selection, depending on the nature of the data, the complexity of the problem, and transparency requirements. The contribution of the thesis is both theoretical and practical: it combines different experimental scenarios, offers evidence-based guidelines for the use and evaluation of NLP models in applications with high accuracy and interpretability requirements, and indicates the advantages and limitations of each approach.Of particular research interest is the observation that model performance may be influenced by the length of instances (text length), a factor that has not been sufficiently studied in the international literature. Future work may focus on systematically investigating the relationship between text length and model performance, in conjunction with parameters such as language complexity, category clarity, and decision interpretability. Overall, this thesis contributes significantly to the empirical documentation of the effectiveness of modern NLP methods, offering clear guidelines for model optimization, selecting architectures, and enhancing reliability and transparency in natural language understanding applications.
περισσότερα