Ανάπτυξη αλγορίθμων μάθησης για βελτίωση της εκπαίδευσης και της ερμηνείας των βαθιών νευρωνικών δικτύων

Τα τελευταία χρόνια το πεδίο της Μηχανικής Μάθησης έχει αναπτυχθεί σε μεγάλο βαθμό. Με την εξέλιξη και την αξιοποίηση σύγχρονων υπολογιστικών συστημάτων και καινούργιων τεχνολογιών ο τομέας της Μηχανικής Μάθησης κατάφερε να παρέχει λύσεις σε προβλήματα διαφόρων επιστημονικών πεδίων, καθώς και να έχει σημαντικό ρόλο στον τομέα της παραγωγής και της εργασίας. Κυριότερα, η ανάπτυξη της Βαθιάς Μηχανικής Μάθησης και των Νευρωνικών Δικτύων ευθύνεται για μέρος αυτής της επιτυχίας. Σε αυτή τη διατριβή ασχοληθήκαμε, κυρίως, με τα Βαθιά Νευρωνικά Δίκτυα και την λειτουργία τους. Αναλύσαμε διάφορους αλγορίθμους μάθησης και εντοπίσαμε προβλήματα που δυσχεραίνουν την καλή επίδοση ενός δικτύου. Μέσω της διατριβής προτείνονται αλγόριθμοι και μέθοδοι μάθησης νευρωνικών δικτύων, οι οποίοι αποσκοπούν στην καλύτερη εκπαίδευση και, κατά συνέπεια, στην βελτίωση των αποδόσεων των Βαθιών Νευρωνικών Δικτύων. Πιο συγκεκριμένα, στο πρώτο μέρος εξετάσαμε την τεχνική εκπαίδευσης με παρτίδες ενός νευρωνικού δικτύου. Εντρυφήσαμε στο πεδίο της Δυναμικής Επιλογής Παρτίδας και προτείναμε έναν αλγόριθμο που βασίζεται στην Μεροληπτική Δειγματοληψία. Σκοπός του είναι να επιλέγει δείγματα από το σύνολο δεδομένων που εμφανίζουν υψηλές τιμές σφάλματος και να τις εισάγει περισσότερες φορές στην διαδικασία της εκπαίδευσης. Δίνοντας έμφαση στα δύσκολα δείγματα το νευρωνικό δίκτυο καταφέρνει να εκπαιδευτεί γρηγορότερα και να έχει καλύτερες επιδόσεις. Για να αποδειχθεί η χρησιμότητα της μεθόδου, διεξήχθησαν μία σειρά από πειράματα σε διαφορετικά σύνολα δεδομένων. Τα αποτελέσματα δείχνουν ότι ο προτεινόμενος αλγόριθμος βελτιώνει την ταχύτητα σύγκλισης και πολλές φορές την μέγιστη επίδοση του δικτύου. Εκτός αυτού βελτιώνει τον χρόνο εκπαίδευσης και τον αριθμό των υπολογισμών ανά επανάληψη σε σχέση με άλλες τεχνικές της βιβλιογραφίας. Στο δεύτερο μέρος της διατριβής ασχοληθήκαμε με το πεδίο της Ανισορροπίας δεδομένων. Αυτό το φαινόμενο συναντάται συχνά στα πραγματικά σύνολα δεδομένων και αποτελεί ένα σημαντικό εμπόδιο στην ομαλή εκπαίδευση και γενίκευση των μοντέλων μηχανικής μάθησης. Περιγράψαμε και αναλύσαμε διάφορες μεθόδους και τεχνικές της βιβλιογραφίας πάνω σε αυτό το θέμα. Η μελέτη μας επικεντρώθηκε στις τεχνικές προσαρμογής του αλγορίθμου μάθησης με σκοπό την καταπολέμηση της ανισορροπίας. Προτείναμε την μέθοδο εκπαίδευσης νευρωνικών δικτύων με όνομα Θορυβώδης Επιλογή Παρτίδας με Επανεισαγωγές, η οποία επιλέγει δείγματα από τα δεδομένα με βάση κάποια κριτήρια και προσθέτει κατάλληλο θόρυβο. Με αυτόν τον τρόπο μπορεί το δίκτυο να εκπαιδεύεται εξίσου καλά σε κλάσεις δεδομένων με μικρό αριθμό δειγμάτων επιτυγχάνοντας υψηλότερες επιδόσεις. Μία σειρά από πειράματα σε ανισόρροπα σύνολα δεδομένων έδειξαν την βελτίωση που παρέχει η μέθοδος αυτή σε σχέση με άλλες. Επίσης, δείχνουμε ότι είναι ικανή να λειτουργήσει σε συνδυασμό με άλλες τεχνικές καταπολέμησης ανισορροπίας, όπως τεχνικές μετασχηματισμού δεδομένων. Μία άλλη θεματική που μελετήθηκε σε αυτή τη διατριβή είναι η ερευνητική περιοχή της βελτιστοποίησης. Στο πλαίσιο της εκπαίδευσης νευρωνικών δικτύων έχουν δημιουργηθεί μία πληθώρα από βελτιστοποιητές, καθένας από τους οποίους έχει τις ιδιαιτερότητές του. Εμβαθύναμε περισσότερο σε προσαρμοστικούς αλγόριθμους και προτείναμε μία μέθοδο βελτιστοποίησης, με όνομα AdaLip, η οποία κατασκευάζει διαφορετικό ρυθμό μάθησης ανά επίπεδο βασισμένη στην σταθερά του Lipschitz. Στοιχεία παρατέθηκαν για την ανάγκη διαφορετικής προσέγγισης των διαφορετικών επιπέδων και υποστηρίχθηκαν πειραματικά. Δοκιμάσαμε την μέθοδο μας σε ένα σύνολο προβλημάτων ταξινόμησης εικόνας και τα αποτελέσματα έδειξαν βελτιώσεις στην ταχύτητα σύγκλισης, στην συνολική επίδοση στο σύνολο εκπαίδευσης αλλά και πιο σταθερή γενίκευση. Η μέθοδος αυτή μπορεί να δουλέψει πάνω από ήδη υπάρχοντες βελτιστοποιητές και να καλυτερέψει τα αποτελέσματά τους. Τέλος, παρατέθηκε θεωρητική απόδειξη σύγκλισης του προτεινόμενου βελτιστοποιητή. Στο τελευταίο κομμάτι της διατριβής ασχοληθήκαμε με το πεδίο της ερμηνείας των νευρωνικών δικτύων. Η ερμηνευσιμότητα πραγματεύεται με την κατανόηση των νευρωνικών δικτύων και των προβλέψεών τους. Αρχικά, εξερευνούμε διάφορες τεχνικές ερμηνευσιμότητας και συγκρίνουμε τις επιδόσεις τους. Τα πειράματα βασίστηκαν πάνω σε ιατρικές εικόνες για ταξινόμηση του σταδίου της αμφιβληστροειδοπάθειας. Αυτό συνέβαλε στην βαθύτερη κατανόηση της λειτουργίας των μοντέλων αλλά και στην εξήγηση των περιοχών βλάβης των ιατρικών εικόνων. Επίσης, με την χρήση τέτοιων μεθόδων δείξαμε ότι είναι εφικτό να προσεγγιστεί και μία λύση στο πρόβλημα της κατάτμησης εικόνας. Εκτός από αυτό εμβαθύναμε περισσότερο στην λειτουργία των μεθόδων ερμηνευσιμότητας και συγκεκριμένα στις μεθόδους που χρησιμοποιούν σημεία αναφοράς. Δείξαμε ότι η χρήση σημείων αναφοράς εγκυμονεί πολλούς κινδύνους ανακρίβειας των σημασιών των προβλέψεων νευρωνικών δικτύων. Με βάση αυτή την αδυναμία τους προτείναμε ένα νέο επίπεδο που αποσκοπεί στο να βελτιώσει αυτά τα ζητήματα. Το προτεινόμενο Επίπεδο Διανυσματικής Αναπαράστασης με Αντίληψη Βάσης κατασκευάστηκε με σκοπό να ενσωματώνει μέσω της εκπαίδευσης την έννοια της βάσης ή σημείου αναφοράς. Έτσι, οι εκάστοτε αλγόριθμοι ερμηνευσιμότητας που λειτουργούν με σημεία αναφοράς μπορούν να χρησιμοποιούν το παραπάνω επίπεδο στις αρχιτεκτονικές του δικτύου και να δημιουργούν πιο ακριβείς ερμηνείες για τις διάφορες προβλέψεις. Αυτό το δείξαμε πειραματικά πάνω σε 4 σύνολα δεδομένων πινάκων. Τα σύνολα πινάκων επιλέχθηκαν λόγω της μεγάλης ποικιλίας χαρακτηριστικών που διαθέτουν αλλά και επειδή σε αυτά παρατηρείται πιο συχνά το πρόβλημα των σημείων αναφοράς.

περισσότερα

Περίληψη σε άλλη γλώσσα

In recent years the field of Machine Learning has been developed dramatically. With the progress and use of advanced hardware and computer systems, Machine Learning has given solutions in many scientific problems and is a vital part of some industries. Especially, Deep Learning and Deep Neural Networks are responsible for this great success. In this thesis we got involved, mainly, with Deep Neural Networks and their training process. We analyzed different learning algorithms and pinpointed problems that worsen the performance of neural networks. This dissertation proposes various algorithms and learning methods that intend to improve the training process and the general performance of Deep Neural Networks. Specifically, the first part revolves around the method of training a network with batches. We focused on the techniques of Online Batch Selection and proposed an algorithm that is based on Biased Sampling. The goal of the algorithm is to select samples with high loss values and add them in the training process more frequently. Emphasizing on the difficult samples the network is trained faster and has a better performance. To prove the usefulness of the proposed method, a series of experiments was inducted on different datasets. The results show that the algorithm improves the convergence speed and the best performance scores of the model. Apart from that, it improves the training time and the number of computations per iteration in comparison to other works in the literature. In the second part of the dissertation, we delved into the field of Imbalanced Datasets. This phenomenon is encountered often regarding real-world datasets and is a serious obstacle of the training process and the generalization of machine learning models. We described and analyzed various methods and techniques that are popular in the literature. Our work was centered around algorithm-based methods that tackle the problem of imbalance. We proposed a method of training neural networks, called NBSBS-R, that selects samples based on some criteria and adds a proper amount of noise. This way the network can learn the minority class just as well, while achieving better performance. An experimental framework is introduced that uses imbalanced datasets to test the new algorithm. The results showed an improvement in the generalization performance of the networks compared to other methods. Also, the experiments showed that the method is able to work together with other data-transformation techniques in order to build a better model overall. Another subject that was studied, was the field of optimization. There is a wide variety of optimizers that can be used to train a neural network, while each one of them has its own intricacies. We dived into adaptive optimizers and proposed an algorithm, called AdaLip, that constructs a learning rate per layer based on the Lipschitz constant. Various reasons were presented to show the need of the different approach of different layers and were supported experimentally. We tested our method on image classification datasets and the results showed imrovements in the convergence speed and the overall training performance. The proposed algorithm can work together with other optimizers and boost their performance scores. Finally, a theoretical proof of convergence of the new optimizer was presented. In the final part of the thesis, we delved into the field of interpreting neural networks. Interpretability is concerned with understanding neural networks and their predictions. Initially, we explored various interpretability techniques and compared their performances. The experiments were based on medical images for classifying the stages of retinopathy. This contributed to a deeper understanding of the model's functionality in relation to retinal images. We also showed that using interpretability techniques it becomes possible to tackle the problem of image segmantation. Furthermore, we delved deeper into the operation of interpretability methods, specifically those employing reference points. We demonstrated that the use of reference points entails many risks of inaccuracy in interpreting neural network predictions. Based on this limitation, we proposed a new layer aiming to improve these issues. The proposed Baseline-Aware Embedding layer was designed to incorporate the concept of a baseline or reference point through training. Thus, interpretability algorithms that operate with reference points can utilize this layer in network architectures to generate more accurate interpretations for various predictions. We demonstrated this experimentally on four tabular datasets, chosen for their diverse features and the common occurrence of reference point issues.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (5.24 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/55442
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/55442
ND	55442
Εναλλακτικός τίτλος	Development of machine learning algorithms to improve the training and interpretation of deep neural networks
Συγγραφέας	Ιωάννου, Γεώργιος (Πατρώνυμο: Σπυρίδων)
Ημερομηνία	2023
Ίδρυμα	Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Συστημάτων Τεχνητής Νοημοσύνης και Μάθησης
Εξεταστική επιτροπή	Σταφυλοπάτης Ανδρέας-Γεώργιος Κουτσούρης Διονύσιος-Δημήτριος Στάμου Γεώργιος Κόλλιας Στέφανος Νικήτα Κωνσταντίνα Βουλόδημος Αθανάσιος Αλεξανδρίδης Γεώργιος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Υπολογιστές, Υλικό (hardware) και Αρχιτεκτονική
Λέξεις-κλειδιά	Μηχανική μάθηση; Βαθιά μηχανική μάθηση; Δίκτυα, Νευρωνικά; Συνελικτικό νευρωνικό δίκτυο; Βελτιστοποίηση; Αλγόριθμοι μάθησης; Στοχαστικοί αλγόριθμοι; Δειγματοληψία; Ερμηνευσιμότητα; Επεξηγησιμότητα; Σημεία αναφοράς; Διανυσματική αναπαράσταση
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Αλγόριθμοι βελτιστοποίησης για ρομποτικές εφαρμογές

Identification of fraudulent financial statements using data mining techniques

Διασυνοριακή ροή οικονομικών δεδομένων: νομική προσέγγιση

Security and privacy in the internet of things

Λήψη βέλτιστων αποφάσεων για τη διασφάλιση της ποιότητας των οικονομικών καταστάσεων: εφαρμογές σε λογιστικούς και φορολογικούς ελέγχους

Recommender systems with real-life applications

Political economy of fiscal reforms: the case of E.M.U.

Ψηφιακές δεξιότητες και ανισότητες στον εργασιακό χώρο: εξάλειψη του ψηφιακού χάσματος και ενδυνάμωση του ανθρώπινου δυναμικού

Αγορά εργασίας, απασχολησιμότητα και επιλογή προσωπικού στον ιδιωτικό και δημόσιο τομέα: εμπειρική έρευνα για την ελληνική περίπτωση

Deep learning techniques for financial data

"Ανάπτυξη αλγορίθμων μάθησης για βελτίωση της εκπαίδευσης και της ερμηνείας των βαθιών νευρωνικών δικτύων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .