Περίληψη
Η παρούσα διδακτορική διατριβή εστιάζει στην αξιοποίηση πληροφορίας που προέρχεται από αδόμητο και ημι-δομημένο κείμενο, με σκοπό την εξαγωγή γνώσης από φυσική γλώσσα. Βασικός στόχος αποτελεί η ανάπτυξη μεθοδολογιών που είτε μετασχηματίζουν την αδόμητη πληροφορία σε μορφή κατάλληλη για εφαρμογή παραδοσιακών τεχνικών ανάλυσης, είτε επιτρέπουν την άμεση επεξεργασία της χωρίς απαίτηση προκαθορισμένης δομής. Οι προτεινόμενες μεθοδολογίες υποστηρίζουν, την κατηγοριοποίηση πληροφοριών, την ανίχνευση θεματικών ενοτήτων και τάσεων, την παρακολούθηση ροών κειμένου σε πραγματικό χρόνο, την πρόβλεψη συναισθηματικών μεταβολών και την ανάκτηση κρίσιμων πληροφοριών από ελεύθερο κείμενο συμβάλλοντας έτσι στην ουσιαστική κατανόηση και αξιοποίηση πολύπλοκων ροών πληροφορίας. Στοιχεία, τα οποία αποτελούν σημαντικά εργαλεία σε σύνθετα περιβάλλοντα όπου απαιτείται ανάλυση επιχειρηματικών πληροφοριών, ανάλυση τεχνικών εκθέσεων, περιγραφών έργων ή καταγραφών πεδίου. Στο Πρώτο Κεφάλαιο παρουσιάζεται μια συνο ...
Η παρούσα διδακτορική διατριβή εστιάζει στην αξιοποίηση πληροφορίας που προέρχεται από αδόμητο και ημι-δομημένο κείμενο, με σκοπό την εξαγωγή γνώσης από φυσική γλώσσα. Βασικός στόχος αποτελεί η ανάπτυξη μεθοδολογιών που είτε μετασχηματίζουν την αδόμητη πληροφορία σε μορφή κατάλληλη για εφαρμογή παραδοσιακών τεχνικών ανάλυσης, είτε επιτρέπουν την άμεση επεξεργασία της χωρίς απαίτηση προκαθορισμένης δομής. Οι προτεινόμενες μεθοδολογίες υποστηρίζουν, την κατηγοριοποίηση πληροφοριών, την ανίχνευση θεματικών ενοτήτων και τάσεων, την παρακολούθηση ροών κειμένου σε πραγματικό χρόνο, την πρόβλεψη συναισθηματικών μεταβολών και την ανάκτηση κρίσιμων πληροφοριών από ελεύθερο κείμενο συμβάλλοντας έτσι στην ουσιαστική κατανόηση και αξιοποίηση πολύπλοκων ροών πληροφορίας. Στοιχεία, τα οποία αποτελούν σημαντικά εργαλεία σε σύνθετα περιβάλλοντα όπου απαιτείται ανάλυση επιχειρηματικών πληροφοριών, ανάλυση τεχνικών εκθέσεων, περιγραφών έργων ή καταγραφών πεδίου. Στο Πρώτο Κεφάλαιο παρουσιάζεται μια συνοπτική επισκόπηση των μορφών του γραπτού λόγου, εξετάζοντας την εξέλιξή τους από τα αρχαία χρόνια έως σήμερα, καθώς και τη σημασία τους για τη διατήρηση της γνώσης και την πρόοδο σε διάφορους τομείς. Ακολουθεί ανάλυση της τεχνολογικής προόδου που έχει δημιουργήσει νέες δυνατότητες για την αξιοποίηση των κειμενικών δεδομένων. Εξετάζονται οι διαφορετικές μορφές κειμένου που εντοπίζονται, καθώς και τα βασικά στάδια προεπεξεργασίας που καθιστούν το κείμενο κατάλληλο για επεξεργασία με σύγχρονες τεχνολογικές μεθόδους από το πεδίο της μηχανικής μάθησης. Επιπλέον, δίνεται έμφαση στο υποσύνολο της μηχανικής μάθησης που αφορά στη βαθιά μάθηση, η οποία βασίζεται σε νευρωνικά δίκτυα, με αναλυτική παρουσίαση των σχετικών αλγορίθμων. Το κεφάλαιο ολοκληρώνεται με την περιγραφή μετρικών αξιολόγησης που χρησιμοποιούνται για την εκτίμηση της αποτελεσματικότητας των προτεινόμενων τεχνικών στην επίτευξη ποιοτικών αποτελεσμάτων. Στο Δεύτερο Κεφάλαιο, πραγματοποιείται η βιβλιογραφική ανασκόπηση ξεκινώντας με μια συνοπτική ιστορική επισκόπηση της Επεξεργασίας Φυσικής Γλώσσας, των πρώτων μεθόδων που αναπτύχθηκαν στον τομέα και της σταδιακής τους εξέλιξης με την πάροδο του χρόνου. Στη συνέχεια, παρουσιάζονται ερευνητικές εργασίες που αξιοποιούν διαφορετικά στάδια προεπεξεργασίας, με σκοπό τη βελτιστοποίηση της ακρίβειας και της αποδοτικότητας των συστημάτων Natural Language Processing (NLP). Εξετάζονται εφαρμογές ταξινόμησης κειμένων σε πραγματικά προβλήματα, καθώς και μελέτες που βασίζονται στη θεματική μοντελοποίηση για την ανάδειξη κρυφών εννοιολογικών δομών. Επιπλέον, περιγράφονται τεχνικές οπτικοποίησης και αναλυτικής διερεύνησης κειμένου που στοχεύουν στη βελτίωση της κατανόησης και της ερμηνείας των δεδομένων και των αποτελεσμάτων. Τέλος, περιλαμβάνονται προσεγγίσεις εξόρυξης πληροφορίας από αδόμητο κείμενο, με στόχο τη μετατροπή του σε δομημένη μορφή, ικανή να αξιοποιηθεί περαιτέρω για ανάλυση. Στο Τρίτο Κεφάλαιο, σχεδιάζεται ένας αλγόριθμος ταξινόμησης δύο σταδίων, συνοδευόμενος από μια διαδικασία επισήμανσης δύο κύκλων, με σκοπό την επιτάχυνση και τη βελτίωση της ακρίβειας στη διαδικασία κατηγοριοποίησης. Στο πρώτο στάδιο, γίνεται φιλτράρισμα των χρήσιμων πληροφοριών από τον συνολικό όγκο των δεδομένων, ενώ στο δεύτερο στάδιο οι πληροφορίες αυτές ταξινομούνται σε θεματικές κατηγορίες ανάλογα με το περιεχόμενό τους. Η διαδικασία επισήμανσης ξεκινά με ένα μικρό σύνολο δεδομένων επισημασμένων από ειδικούς, το οποίο χρησιμοποιείται για την αρχική εκπαίδευση του αλγορίθμου. Στη συνέχεια, οι ειδικοί ελέγχουν και διορθώνουν τις προβλέψεις του μοντέλου σε νέα, μη επισημασμένα δεδομένα, ενισχύοντας έτσι την ταχύτητα δημιουργίας και επικύρωσης νέων επισημασμένων δεδομένων. Τα αποτελέσματα, σε πραγματικά δεδομένα από το τομέα των θαλάσσιων μεταφορών, δείχνουν ότι η προσέγγιση δύο σταδίων υπερτερεί της απλής ταξινόμησης ενός βήματος. Στο Τέταρτο Κεφάλαιο, αναπτύσσεται ένας αλγόριθμος που βασίζεται στον αυτόματο εντοπισμό ερευνητικών θεμάτων ή συστάδων μέσα από ένα εκτεταμένο σύνολο εγγράφων διαφορετικών χρονικών περιόδων. Ο αλγόριθμος αυτός συνδυάζει τεχνικές θεματικής μοντελοποίησης, γεωμετρικά χαρακτηριστικά και Μεγάλα Γλωσσικά Μοντέλα, με στόχο την υποστήριξη της συστηματικής διερεύνησης και την αναγνώριση τάσεων στον χρόνο. Παράλληλα, λειτουργεί ως πολύτιμο εργαλείο για την υποβοήθηση των ειδικών, επιτρέποντάς τους να εστιάζουν σε συγκεκριμένες, ομοιογενείς περιοχές εντός επιστημονικών κλάδων ή θεματικών συστάδων. Η μέθοδος εφαρμόστηκε με επιτυχία στη βιβλιογραφία, μέσα από διάφορες παραλλαγές της, στον τομέα των χρονοσειρών, στην επιστήμη των πολιτικών μηχανικών και της ιατρικής, αναδεικνύοντας την προσαρμοστικότητα και την αποτελεσματικότητά της σε διαφορετικά επιστημονικά πεδία. Στο Πέμπτο Κεφάλαιο, προτείνονται δύο προσεγγίσεις που περιλαμβάνουν μια μέθοδο δυναμικής παρακολούθησης των εξελισσόμενων ροών κειμένου και μία μέθοδο πρόβλεψης της συναισθηματικής πολικότητας των κειμένων. Η πρώτη μέθοδος συνδυάζει τεχνικές επεξεργασίας φυσικής γλώσσας και οπτικοποίησης κειμένου με παραδοσιακούς αλγορίθμους παρακολούθησης διαδικασιών, με στόχο τη βελτίωση της ανάλυσης και κατανόησης των εξελισσόμενων ροών πληροφορίας. Η δεύτερη μέθοδος ενσωματώνει τεχνικές ανάλυσης συναισθήματος με μεθοδολογίες χρονοσειρών, επιδιώκοντας την ανίχνευση μακροχρόνιων τάσεων και τη διαμόρφωση προβλεπτικών μοντέλων που αποτυπώνουν τη δυναμική εξέλιξη του συναισθηματικού περιεχομένου. Συνολικά, οι προτεινόμενες μέθοδοι συνθέτουν ένα ολοκληρωμένο και ευέλικτο μεθοδολογικό πλαίσιο για τη δυναμική ανάλυση και παρακολούθηση χρονικά μεταβαλλόμενων αδόμητων δεδομένων, ενισχύοντας τη λήψη τεκμηριωμένων αποφάσεων και προάγοντας τη βαθύτερη κατανόηση των εξελικτικών τάσεων σε επιχειρησιακά και κοινωνικά περιβάλλοντα. Στο Έκτο Κεφάλαιο, προτείνεται μια καινοτόμος προσέγγιση δύο σταδίων, η οποία ενσωματώνει τεχνικές μηχανικής μάθησης με στόχο την εξαγωγή και μετατροπή πληροφορίας από αδόμητο κείμενο σε δομημένη μορφή. Στο πρώτο στάδιο, εφαρμόζεται διαδικασία φιλτραρίσματος προτάσεων, με σκοπό την επιλογή των προτάσεων που περιέχουν πληροφορίες χρήσιμες για την ανάλυση. Ακολουθεί το δεύτερο στάδιο, στο οποίο υλοποιείται ταξινόμηση όρων, μέσω τεχνικών εξαγωγής χαρακτηριστικών, σε προκαθορισμένες κατηγορίες ενδιαφέροντος που έχουν οριστεί από εμπειρογνώμονες. Η προτεινόμενη μέθοδος αποσκοπεί στην ανάπτυξη ενός ευέλικτου και υψηλής ακρίβειας πλαισίου για την επεξεργασία και ανάλυση ανάλυση αδόμητου κειμένου, με τελικό σκοπό τη μετατροπή του σε αξιοποιήσιμη, δομημένη πληροφορία. Η αποτελεσματικότητά της αποδεικνύεται μέσω της εφαρμογής της σε πραγματικά σύνολα δεδομένων από τους τομείς της ιατρικής και της ναυτιλίας. Στο Έβδομο Κεφάλαιο, συνοψίζονται τα συμπεράσματα που προκύπτουν από τις διαφορετικές μεθόδους που αναπτύχθηκαν. Τα ευρήματα της μελέτης καταδεικνύουν ότι η αξιοποίηση της αδόμητης πληροφορίας είναι όχι μόνο εφικτή, αλλά και ιδιαίτερα ακριβής, προσφέροντας σημαντικά πλεονεκτήματα. Η δυνατότητα εξαγωγής ουσιαστικής πληροφορίας από μη δομημένα δεδομένα αποτελεί στρατηγικό εργαλείο για επιχειρήσεις, οργανισμούς καθώς και ερευνητές, καθώς επιταχύνει την αναγνώριση θεμάτων ενδιαφέροντος και ενισχύει την κατανόησή τους. Αυτό οδηγεί σε ταχύτερη και αποτελεσματικότερη οργάνωση της πληροφορίας, βελτιώνοντας την ανταγωνιστικότητα και τη λήψη αποφάσεων. Σε έναν κόσμο όπου ο όγκος της αδόμητης πληροφορίας αυξάνεται εκθετικά, η ανάγκη για τέτοιου είδους μεθόδους είναι πιο επιτακτική από ποτέ, καθιστώντας την αξιοποίησή τους κρίσιμο παράγοντα επιτυχίας στη σύγχρονη εποχή των δεδομένων.
περισσότερα
Περίληψη σε άλλη γλώσσα
This doctoral thesis focuses on leveraging information derived from unstructured and semi-structured text, with the aim of extracting knowledge from natural language. The primary objective is the development of methodologies that either transform unstructured information into a format suitable for applying traditional analysis techniques or enable direct processing without requiring a predetermined structure. The proposed methodologies support categorization of information, detection of topics and trends, real-time text streaming monitoring, prediction of sentiment changes, and retrieval of critical information from free text, contributing to the substantial understanding and utilization of complex information flows. These elements constitute important tools in complex environments where business information analysis, technical report analysis, project descriptions, or field recording analysis are required. In the First Chapter, a concise overview of written discourse forms is presente ...
This doctoral thesis focuses on leveraging information derived from unstructured and semi-structured text, with the aim of extracting knowledge from natural language. The primary objective is the development of methodologies that either transform unstructured information into a format suitable for applying traditional analysis techniques or enable direct processing without requiring a predetermined structure. The proposed methodologies support categorization of information, detection of topics and trends, real-time text streaming monitoring, prediction of sentiment changes, and retrieval of critical information from free text, contributing to the substantial understanding and utilization of complex information flows. These elements constitute important tools in complex environments where business information analysis, technical report analysis, project descriptions, or field recording analysis are required. In the First Chapter, a concise overview of written discourse forms is presented, examining their evolution from ancient times to the present and their significance for knowledge preservation and advancement across various fields. This is followed by an analysis of technological developments that have created new possibilities for leveraging textual data. The different textual forms identified are examined alongside the fundamental preprocessing stages that prepare text for processing using machine learning methods. Furthermore, emphasis is placed on the subset of machine learning known as deep learning, which is based on neural networks, with a detailed presentation of the relevant algorithms. The chapter concludes with a description of the evaluation metrics used to assess the effectiveness of the proposed techniques in achieving quality results. In the Second Chapter, a literature review is conducted, beginning with a concise historical overview of Natural Language Processing, the first methods developed in the field, and their gradual evolution over time. Subsequently, research works that utilize different preprocessing stages are presented, aimed at optimizing the accuracy and efficiency of NLP systems. Text classification applications for real-world problems are examined, along with studies based on topic modeling to reveal hidden conceptual structures. Furthermore, text visualization and analytical exploration techniques that aim to improve understanding and interpretation of data and results are described. Finally, approaches for information extraction from unstructured text are included, with the goal of transforming it into structured form that can be used further for analysis. In the Third Chapter, a two-step classification algorithm is designed, accompanied by a two-cycle annotation process, with the aim of accelerating and improving the accuracy of the classification procedure. In the first step, useful information is filtered from the total volume of data, while in the second step, this information is classified into thematic categories according to its content. The annotation process begins with a small dataset labeled by experts, which is used for the initial training of the algorithm. Subsequently, the experts review and correct the model's predictions on new, unlabeled data, thereby enhancing the speed of system development. The results on real data from the maritime transport sector show that the two-step classification algorithm outperforms the simple one-step classification. In the Fourth Chapter, an algorithm is developed that is based on the automatic identification of topics or clusters within an extensive set of documents from different time periods. This algorithm combines topic modeling techniques, geometric features, and Large Language Models, with the aim of supporting systematic exploration and recognizing trends over time. Simultaneously, it functions as a valuable tool for assisting experts, enabling them to focus on specific, homogeneous areas within scientific fields or thematic clusters. The method has been successfully applied in the literature through various variations in the fields of time series, civil engineering, and medicine, demonstrating its adaptability and effectiveness across different scientific domains. In the Fifth Chapter, monitoring data streams in real-time is critical, particularly when dealing with unstructured texts, which have now become an integral part of our daily activities. In this context, two approaches are proposed that include a method for dynamic monitoring of evolving text streams and a method for predicting the sentiment polarity of texts. The first method combines natural language processing and text visualization techniques with traditional process monitoring algorithms, aiming to improve the analysis and understanding of evolving information flows. The second method incorporates sentiment analysis techniques with time series methodologies, seeking to detect long-term trends and develop predictive models that capture the dynamic evolution of sentiment content. Overall, the proposed methods constitute a comprehensive and flexible methodological framework for the dynamic analysis and monitoring of temporally varying unstructured data, enhancing informed decision-making and promoting deeper understanding of evolutionary trends in business and social environments. In the Sixth Chapter, an innovative two-stage approach is proposed, which incorporates machine learning techniques with the aim of extracting and transforming information from unstructured text into structured form. In the first stage, a sentence filtering process is applied for the purpose of selecting sentences that contain useful information for analysis. This is followed by the second stage, in which word classification is implemented through feature extraction techniques into predetermined categories of interest that have been defined by experts. The proposed method aims to develop a flexible and high-accuracy framework for processing and analyzing unstructured text, with the ultimate goal of transforming it into usable, structured information. Its effectiveness is demonstrated through its application to real datasets in the fields of medicine and shipping. In the Seventh Chapter, the conclusions arising from the different methods that were developed are summarized. The study findings demonstrate that leveraging unstructured information is not only feasible but also particularly accurate, offering significant advantages. The ability to extract substantial information from unstructured data constitutes a strategic tool for businesses, organizations, and researchers, as it accelerates the recognition of topics of interest and enhances their understanding. This leads to faster and more effective organization of information, improving competitiveness and decision-making. In a world where the volume of unstructured information is increasing exponentially, the need for such methods is more urgent than ever, making their utilization a critical success factor in the modern data era.
περισσότερα