Machine learning methods for the analysis of financial data

Η χρηματοοικονομική βιομηχανία αποτελεί έναν από τους βασικότερους τομείς που υιοθετούν αναδυόμενες τεχνολογίες πληροφορικής, με τις πρόσφατες εξελίξεις στην Τεχνητή Νοημοσύνη (AI) να μετασχηματίζουν τον τραπεζικό και τον επενδυτικό κλάδο. Παρ’ όλα αυτά, υπάρχουν ενδείξεις ότι οι τυπικές μέθοδοι Μηχανικής Μάθησης (ML) απαιτούν σημαντική προσαρμογή ώστε να είναι αποτελεσματικές στα χρηματοοικονομικά, λόγω των περιορισμένων δεδομένων υψηλής ποιότητας, τα οποία περιλαμβάνουν υψηλό στατιστικό θόρυβο και μη στασιμότητα. Η διατριβή συνεισφέρει στη χρηματοοικονομική ML, παρουσιάζοντας νέες μεθόδους που αντιμετωπίζουν συναφή προβλήματα σε τρεις ερευνητικές περιοχές. Οι μέθοδοι αυτές επεκτείνουν τη θεωρία της ML και είναι επαρκώς γενικές ώστε να μπορούν να εφαρμοστούν σε πολλαπλούς τομείς. Στον ερευνητική περιοχή της Μάθησης Κατάταξης (LtR), η πρώτη συνεισφορά περιλαμβάνει νέες μεθόδους κατάταξης για επιλογή μετοχών, οι οποίες μπορούν να υποστηρίξουν τη διαχείριση χαρτοφυλακίου. Ενώ οι παραδοσιακές μέθοδοι κατάταξης προτείνουν υποψήφιες επιλογές αποκλειστικά βάσει υψηλής αναμενόμενης θέσης, η προτεινόμενη μέθοδος Stochastic-Aware Bootstrap Ensemble Ranking (SABER) ποσοτικοποιεί επίσης την αβεβαιότητα που σχετίζεται με κάθε θέση, επιτρέποντας την ανακάλυψη χαρτοφυλακίων με βελτιωμένους δείκτες απόδοσης προς κίνδυνο. Επιπρόσθετα, η βελτιωτική μέθοδος Merged Bootstrap Selection (MBS) υποστηρίζει χαρτοφυλάκια μεταβλητού μεγέθους, τα οποία υπερτερούν έναντι των παραδοσιακών χαρτοφυλακίων σταθερού μεγέθους. Η ερευνητική εργασία αυτή αναδεικνύει μια αποτελεσματική χρηματοοικονομική εφαρμογή της LtR, με έμφαση στην προγνωστική απόδοση και στην υπολογιστική πολυπλοκότητα. Συμβάλλοντας την ερευνητική περιοχή της Συλλογικής Μάθησης, η δεύτερη ερευνητική εργασία προτείνει μια χρηματοοικονομικά εμπνευσμένη μέθοδο στάθμισης εκτιμητών για μοντέλα δενδρικού συγκερασμού που εφαρμόζονται στο Random Forest (RF). Οι παραδοσιακές μέθοδοι εκτίμησης βαρών βασίζονται αποκλειστικά στη μεμονωμένη απόδοση των εκτιμητών, γεγονός που εισάγει τον κίνδυνο κατανομής του μεγαλύτερου μέρους του βάρους σε υψηλά συσχετισμένους εκτιμητές, μειώνοντας έτσι την ποικιλία του συγκερασμού, έναν κρίσιμο παράγοντα για την αποτελεσματικότητά του. Η προτεινόμενη μέθοδος Markowitz Random Forest (MRF) αντιμετωπίζει αυτόν τον περιορισμό λαμβάνοντας υπόψη τον πίνακα διακύμανσης-συνδιακύμανσης των σφαλμάτων των εκτιμητών σε ένα πρόβλημα τετραγωνικού προγραμματισμού που παρομοιάζει αυτό της βελτιστοποίησης χαρτοφυλακίου. Το αποτέλεσμα είναι μια νέα μέθοδος κατανομής βαρών, η οποία αποδίδει βάρος σε εκτιμητές με υψηλή απόδοση, αποθαρρύνοντας παράλληλα τη συγκέντρωση βάρους σε υψηλά συσχετισμένους εκτιμητές. Η τρίτη συνεισφορά είναι μια νέα προσέγγιση για μακρο-επίπεδη ανάλυση συναισθήματος στην ερευνητική περιοχή της Επεξεργασίας Φυσικής Γλώσσας. Η ανάλυση συναισθήματος ειδήσεων χρηματοοικονομικού περιεχομένου αποτελεί μια αποτελεσματική στρατηγική που τροφοδοτεί συστήματα αλγοριθμικής διαπραγμάτευσης και επενδύσεων παγκοσμίως. Αν και η πλειονότητα των μικροεπενδυτών προτιμά να επενδύει σε τομείς ή βιομηχανίες, η σχετική έρευνα έχει επικεντρωθεί κυρίως σε μικρο-επίπεδες αναλύσεις συναισθήματος σχετικά με το πώς συγκεκριμένα γεγονότα ενδέχεται να επηρεάσουν μεμονωμένες μετοχές. Για την αντιμετώπιση αυτού του προβλήματος, η προτεινόμενη μέθοδος Sector-level Sentiment Analysis (SLSA) ενσωματώνει δύο μοντέλα Μάθησης με Επίβλεψη για την ταυτόχρονη πρόβλεψη τόσο του σχετικού τομέα όσο και της συναισθηματικής πολικότητας των ειδήσεων, με τη συνάθροιση των σκορ να αποκαλύπτει το επικρατέστερο συναίσθημα σε κάθε τομέα. Επιπλέον, η εργασία εξερευνά έναν ημι-επιβλεπόμενο μηχανισμό για την εκ νέου επισήμανση ειδήσεων που είναι πιθανό να έχουν επισημανθεί εσφαλμένα ως ουδέτερες. Συμπερασματικά, η διατριβή παρέχει πρόσθετη συζήτηση σχετικά με τη συνεισφορά στους τρεις ερευνητικούς τομείς. Επιπλέον, περιγράφει συναφείς κατευθύνσεις για μελλοντική έρευνα στο πλαίσιο της χρηματοοικονομικής μηχανικής μάθησης.

περισσότερα

Περίληψη σε άλλη γλώσσα

The financial industry is a major adopter of emerging information technology, with recent advancements in Artificial Intelligence (AI) transforming the banking and investing sectors. Nevertheless, evidence suggests that standard Machine Learning (ML) methods require significant adaptation to be effective in finance, due to limited high-quality data, which tends to be noisy and non-stationary. This thesis advances financial ML by contributing new methods to address relevant problems in three distinct areas. These contributions advance ML theory and are sufficiently general to be applied across domains. Advancing the research area of Learning to Rank (LtR), the first contribution comprises new ranking methods for stock selection that can support portfolio management. While traditional ranking methods recommend candidates solely based on high expected rank, the proposed method Stochastic-Aware Bootstrap Ensemble Ranking (SABER) also quantifies the uncertainty associated with each rank, enabling the discovery of portfolios with improved return-to-risk ratios. Furthermore, the enhancement Merged Bootstrap Selection (MBS) supports variable-size portfolios, which consistently outperform traditional fixed-size portfolios. This research work demonstrates an effective financial application of LtR, with attention to predictive performance and computational complexity. Contributing to the research area of Ensemble Learning, the second research work proposes a finance-inspired estimator weighting method for Tree-Based Ensemble (TBE) models applied to Random Forest (RF). Traditional weight estimation methods rely exclusively on the individual performance of estimators, which introduces the risk of allocating most weight to highly correlated estimators, thereby reducing the variety of the ensemble, a critical factor in its effectiveness. The proposed method Markowitz Random Forest (MRF) addresses this limitation by considering the variance-covariance matrix of estimator errors in a quadratic optimization task resembling portfolio optimization. The result is a novel weight allocation method that assigns weight to high-performing estimators while discouraging the concentration of weight on highly correlated ones. The third contribution is a new approach for macro-level sentiment analysis within the research area of Natural Language Processing (NLP). Sentiment analysis of financial news is an effective strategy that powers trading and investing systems worldwide. Although the majority of retail investors prefer to invest in sectors or industries, related work has focused primarily on micro-level sentiment analyses regarding how specific news items may affect individual stocks. To address this issue, the proposed method, Sector-level Sentiment Analysis (SLSA), integrates two Supervised Learning (SL) models for the simultaneous prediction of both relevant sector and sentiment polarity of news, with the aggregation of scores revealing the prevailing sentiment of each sector. vii Additionally, this work explores a semi-supervised mechanism for relabeling likely mislabeled neutral news. In conclusion, the thesis provides additional discussion regarding the contributions in the three research areas. Furthermore, it also outlines relevant future work directions within the scope of financial ML.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (3.13 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/61230
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/61230
ND	61230
Εναλλακτικός τίτλος	Machine learning methods for the analysis of financial data
Συγγραφέας	Κουλούμπρης, Ελευθέριος (Πατρώνυμο: Νικόλαος)
Ημερομηνία	11/2025
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Βλαχάβας Ιωάννης Τσουμάκας Γρηγόριος Βράκας Δημήτριος Παπαρρίζος Ιωάννης Γκόγκας Περικλής Bekiros Stelios Παπάνα Αγγελική
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Διεπιστημονικές εφαρμογές επιστήμης ηλεκτρονικών υπολογιστών
Λέξεις-κλειδιά	Μάθηση Κατάταξης; Συλλογική Μάθηση; Επεξεργασία φυσικής γλώσσας; Βαθιά μάθηση
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

"Μέθοδοι μηχανικής μάθησης για ανάλυση οικονομικών δεδομένων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .