Περίληψη
Η Επεξεργασία Φυσικής Γλώσσας (NLP) για επιχειρηματικά και χρηματοοικονομικά κείμενα (Hahn et al., 2018; Chen et al., 2022) αποτελεί ένα ταχέως αναπτυσσόμενο ερευνητικό πεδίο που εφαρμόζει υπολογιστικές τεχνικές σε κείμενα όπως εταιρικά έγγραφα, αναφορές αναλυτών και οικονομικές ειδήσεις. Τα έγγραφα αυτά παρουσιάζουν μοναδικές προκλήσεις λόγω του εξειδικευμένου λεξιλογίου (El-Haj et al., 2019), του κρίσιμου ρόλου των αριθμητικών δεδομένων, των ιδιαίτερων συντακτικών δομών και της σημασιολογίας του εκάστοτε πεδίου. Οι δυσκολίες αυτές εντείνονται από ευρύτερα προβλήματα, όπως η επεξεργασία μεγάλου όγκου μη δομημένων δημόσιων δεδομένων και η οικονομικά αποδοτική ανάπτυξη γλωσσικών μοντέλων, ιδίως για οργανισμούς με περιορισμένους πόρους όπως οι small-to-medium enterprises (SMEs). Η αντιμετώπιση αυτών των προκλήσεων είναι κρίσιμη για εφαρμογές που εκτείνονται από την ανίχνευση απάτης (Goel and Gangolly, 2012), τη long-form summarization (Cao et al., 2024) και την εξαγωγή πληροφορίας έως τη ...
Η Επεξεργασία Φυσικής Γλώσσας (NLP) για επιχειρηματικά και χρηματοοικονομικά κείμενα (Hahn et al., 2018; Chen et al., 2022) αποτελεί ένα ταχέως αναπτυσσόμενο ερευνητικό πεδίο που εφαρμόζει υπολογιστικές τεχνικές σε κείμενα όπως εταιρικά έγγραφα, αναφορές αναλυτών και οικονομικές ειδήσεις. Τα έγγραφα αυτά παρουσιάζουν μοναδικές προκλήσεις λόγω του εξειδικευμένου λεξιλογίου (El-Haj et al., 2019), του κρίσιμου ρόλου των αριθμητικών δεδομένων, των ιδιαίτερων συντακτικών δομών και της σημασιολογίας του εκάστοτε πεδίου. Οι δυσκολίες αυτές εντείνονται από ευρύτερα προβλήματα, όπως η επεξεργασία μεγάλου όγκου μη δομημένων δημόσιων δεδομένων και η οικονομικά αποδοτική ανάπτυξη γλωσσικών μοντέλων, ιδίως για οργανισμούς με περιορισμένους πόρους όπως οι small-to-medium enterprises (SMEs). Η αντιμετώπιση αυτών των προκλήσεων είναι κρίσιμη για εφαρμογές που εκτείνονται από την ανίχνευση απάτης (Goel and Gangolly, 2012), τη long-form summarization (Cao et al., 2024) και την εξαγωγή πληροφορίας έως τη χρηματοοικονομική question answering (Maia et al., 2018). Η παρούσα διατριβή στοχεύει στην προώθηση της εφαρμοσμένης NLP και της αξιοποίησης επιχειρηματικών εγγράφων σε πραγματικές συνθήκες, αντιμετωπίζοντας σύγχρονες βιομηχανικές προκλήσεις σε διαφορετικά επίπεδα της τεχνητής νοημοσύνης, και πιο συγκεκριμένα στο επίπεδο των δεδομένων, των εφαρμογών και της ανάπτυξης (deployment), με σταθερή έμφαση σε περιβάλλοντα περιορισμένων πόρων. Διατυπώνουμε τρία βασικά ερευνητικά ερωτήματα: (1) Πώς μπορούν τα ανοικτής πρόσβασης, μη δομημένα επιχειρηματικά έγγραφα να αξιοποιηθούν αποτελεσματικά για NLP; (2) Πώς μπορούν οι σύγχρονες μέθοδοι NLP που βασίζονται σε deep learning (DL) να προσαρμοστούν και να επεκταθούν ώστε να δημιουργούν επιχειρηματική αξία σε εργασίες όπως το automatic document tagging, λαμβάνοντας υπόψη τις ιδιαιτερότητες της χρηματοοικονομικής γλώσσας και την έντονη εξάρτησή της από αριθμητικά δεδομένα; (3) Για τις συνήθεις βιομηχανικές εργασίες text classification, ποιες προσεγγίσεις είναι οι πιο ακριβείς και οικονομικά αποδοτικές σε συνθήκες περιορισμένων πόρων; Το τρίτο ερώτημα μελετάται μέσω μιας πραγματικής εφαρμογής οικονομικά αποδοτικής αναγνώρισης πρόθεσης σε διαλόγους πελατών, με σύγκριση μεταξύ BERT-based models και Large Language Models (LLMs) και με βελτιστοποίηση του κόστους ανάπτυξης των LLMs. Για την αντιμετώπιση των παραπάνω, αρχικά εστιάζουμε στον «εκδημοκρατισμό» της πρόσβασης στα επιχειρηματικά έγγραφα μέσω της ανάπτυξης του EDGAR-CORPUS, του μεγαλύτερου δημόσια διαθέσιμου financial NLP corpus στα Αγγλικά, των domain-specific word embeddings EDGAR-W2V, τα οποία υπερτερούν των εναλλακτικών προσεγγίσεων, καθώς και του EDGAR-CRAWLER, ενός open-source εργαλείου εξαγωγής χρηματοοικονομικών δεδομένων με εκατοντάδες χρήστες από τον ακαδημαϊκό χώρο, τη FinTech κοινότητα και την ανάπτυξη web εφαρμογών. Στη συνέχεια, εισάγουμε το XBRL tagging ως μια πραγματική εργασία NLP, όπου δημιουργούμε το FiNER-139, το πρώτο dataset για το συγκεκριμένο πρόβλημα, και δείχνουμε ότι τα LSTM μοντέλα μπορούν να υπερέχουν έναντι του BERT λόγω περιορισμών της αρχιτεκτονικής των transformers και της τυπικής τεχνικής tokenization σε σχέση με τον κατακερματισμό αριθμητικών tokens. Μετά από εκτενή αξιολόγηση διαφορετικών μεθόδων, προτείνουμε μια νέα τεχνική tokenization με χρήση pseudo-tokens για transformer μοντέλα, η οποία βελτιώνει σημαντικά την απόδοση σε numeric-first tasks, οδηγώντας στην κυκλοφορία νέων state-of-the-art BERT μοντέλων (SEC-BERT) ειδικά σχεδιασμένων για το χρηματοοικονομικό πεδίο. Τέλος, για την οικονομικά αποδοτική αναγνώριση πρόθεσης, πραγματοποιούμε μια εκτενή συγκριτική μελέτη στο Banking77 dataset (Casanueva et al., 2020), δείχνοντας ότι μικρότερα BERT-based models μπορούν να είναι πιο αποδοτικά και οικονομικά από τα LLMs, απαιτώντας μόνο ελαφρώς περισσότερα επισημασμένα δεδομένα εκπαίδευσης. Παράλληλα, παρουσιάζουμε το “Dynamic Few-Shot Prompting”, μια προσέγγιση βασισμένη σε Retrieval-Augmented Generation (RAG) που μειώνει δραστικά το κόστος inference των LLMs διατηρώντας υψηλή ακρίβεια, και διερευνούμε τη χρησιμότητα της synthetic data generation. Η διατριβή καθιστά δημόσια διαθέσιμους βασικούς πόρους: το EDGAR-CORPUS, τα EDGAR-W2V embeddings, το λογισμικό EDGAR-CRAWLER, το dataset FiNER-139, την οικογένεια μοντέλων SEC-BERT, καθώς και ένα επιμελημένο υποσύνολο του Banking77 dataset, το οποίο περιλαμβάνει expert-selected παραδείγματα για κάθε intent class και το οποίο αποδεικνύεται κρίσιμο για την επίτευξη υψηλής απόδοσης σε few-shot learning σενάρια. Συνολικά, το έργο της διατριβής συνιστά μια σημαντική συμβολή στην πρόοδο της industrial NLP για επιχειρηματικά έγγραφα, παρέχοντας θεμελιώδεις open-source πόρους, νέες μεθοδολογίες για τη διαχείριση των ιδιαίτερων χαρακτηριστικών του χρηματοοικονομικού κειμένου, και ειδικά των αριθμητικών δεδομένων, καθώς και πρακτικές, οικονομικά αποδοτικές στρατηγικές για την ανάπτυξη προηγμένων NLP λύσεων σε πραγματικές χρηματοοικονομικές εφαρμογές, με ιδιαίτερο όφελος για τα small-to-medium enterprises.
περισσότερα
Περίληψη σε άλλη γλώσσα
Natural Language Processing (NLP) for business and finance-related documents (Hahn et al., 2018; Chen et al., 2022) is an expanding research area applying computational techniques to text such as company filings, analyst reports, and economic news. These documents present unique challenges due to specialized vocabulary (El-Haj et al., 2019), the critical role of numerical data, distinct syntactic structures, and domain-specific semantics. These issues are compounded by broader difficulties, including processing large volumes of unstructured public data and deploying language models cost-effectively, especially for resource-limited organizations like small-to-medium enterprises (SMEs). Addressing these challenges is crucial for applications ranging from fraud detection (Goel and Gangolly, 2012), long-form summarization (Cao et al., 2024), and information extraction to financial question answering (Maia et al., 2018). This thesis aims to advance applied NLP and the use of business docume ...
Natural Language Processing (NLP) for business and finance-related documents (Hahn et al., 2018; Chen et al., 2022) is an expanding research area applying computational techniques to text such as company filings, analyst reports, and economic news. These documents present unique challenges due to specialized vocabulary (El-Haj et al., 2019), the critical role of numerical data, distinct syntactic structures, and domain-specific semantics. These issues are compounded by broader difficulties, including processing large volumes of unstructured public data and deploying language models cost-effectively, especially for resource-limited organizations like small-to-medium enterprises (SMEs). Addressing these challenges is crucial for applications ranging from fraud detection (Goel and Gangolly, 2012), long-form summarization (Cao et al., 2024), and information extraction to financial question answering (Maia et al., 2018). This thesis aims to advance applied NLP and the use of business documents for real-world tasks by addressing current industry challenges across different layers of artificial intelligence, more specifically across the data, application, and deployment layers, with a consistent focus on resource-constrained environments. We tackle three main research questions: (1) How can open-access, unstructured business documents be effectively leveraged for NLP? (2) How can current NLP methods that utilize deep learning (DL) techniques be adapted and extended to create business value in tasks like automatic document tagging, considering the nuances of financial language, particularly its heavy reliance on numerics? (3) For common industrial text classification tasks, what are the most accurate and cost-efficient approaches in resource-limited settings? We investigate the latter question by focusing on a real-world use case of intent recognition from customer dialogues, comparing BERT-based models and Large Language Models (LLMs), and optimizing LLM deployment for cost. Addressing these questions, we first focus on “democratizing” access to business documents by developing EDGAR-CORPUS, the largest publicly available financial NLP corpus in English, domain-specific word embeddings (EDGAR-W2V) which outperform alternatives, and EDGAR-CRAWLER, an open-source software toolkit for financial data extraction with hundreds of users ranging from academic researchers to FinTech practitioners and web developers. Then, we introduce XBRL tagging, a real-world NLP task, where we compile FiNER-139, the first dataset for this task, and find that LSTM models can outperform BERT due to issues of the transformer architecture (and its standard tokenization technique) with numeric token fragmentation. After benchmarking different methods, we then propose a novel tokenization technique using pseudo-tokens for transformer models that significantly improves performance on numeric-first tasks, leading to the release of new state-of-the-art BERT models (SEC-BERT), specially created for the finance domain. Finally, for cost-efficient intent recognition, we conduct a comprehensive benchmarking study on the Banking77 dataset (Casanueva et al., 2020), showing that smaller BERT-based models can be more effective and economical than LLMs, requiring only slightly more annotated training data than LLMs. We also showcase “Dynamic Few-Shot Prompting”, a Retrieval-Augmented Generation (RAG)-based method that drastically reduces LLM inference costs while maintaining high accuracy, and explore the utility of synthetic data generation. This thesis makes several key resources publicly available: the EDGAR-CORPUS, EDGAR-W2V embeddings, the EDGAR-CRAWLER software, the FiNER-139 dataset, the family of SEC-BERT models, as well as a curated subset of the Banking77 dataset containing expert-selected examples for each intent class, which we show to be crucial for achieving high performance in few-shot learning scenarios. The work of the thesis constitutes a significant contribution toward advancing industrial NLP on business documents by providing foundational open-source resources, novel methodologies for handling the unique characteristics of financial text, particularly numerical data, and practical, cost-effective strategies for deploying advanced NLP solutions in real-world financial applications, especially benefiting small-to-medium enterprises.
περισσότερα