Περίληψη
Τα τελευταία χρόνια, η Βαθιά Μάθηση (Deep Learning - DL) έχει συμβάλλει σημαντικά τόσο στην ακαδημαϊκή έρευνα όσο και στη βιομηχανία, οδηγώντας σε κορυφαίες επιδόσεις σε ένα ευρύ φάσμα εφαρμογών. Ωστόσο, η χρήση της Βαθιάς Μάθησης συχνά περιορίζεται από την υψηλή πολυπλοκότητα των μοντέλων, η οποία απαιτεί όλο και ισχυρότερο υπολογιστικό υλικό, πιέζοντας τα όρια του διαθέσιμου υλικού και εγείροντας ανησυχίες σχετικά με τη βιωσιμότητά της. Για την αντιμετώπιση της απαιτητικής φύσης των μοντέλων της Βαθιάς Μάθησης, καταβάλλονται αυξανόμενες προσπάθειες για την ταχύτερη εκπαίδευση των μοντέλων και την αποδοτικότερη εξαγωγή συμπερασμάτων, καθώς και την ανάπτυξη τεχνολογιών προηγμένου υπολογιστικού υλικού, με στόχο τη μείωση της κατανάλωσης ενέργειας. Με κίνητρο το γεγονός ότι η ανάπτυξη της Βαθιάς Μάθησης έγινε δυνατή μόνο όταν το κατάλληλο υλικό αναπτύχθηκε για να υποστηρίξει τις αναδυόμενες ανάγκες των μεθοδολογιών, η παρούσα Διατριβή επιχειρεί να καθιερώσει μια ολιστική προσέγγιση για τ ...
Τα τελευταία χρόνια, η Βαθιά Μάθηση (Deep Learning - DL) έχει συμβάλλει σημαντικά τόσο στην ακαδημαϊκή έρευνα όσο και στη βιομηχανία, οδηγώντας σε κορυφαίες επιδόσεις σε ένα ευρύ φάσμα εφαρμογών. Ωστόσο, η χρήση της Βαθιάς Μάθησης συχνά περιορίζεται από την υψηλή πολυπλοκότητα των μοντέλων, η οποία απαιτεί όλο και ισχυρότερο υπολογιστικό υλικό, πιέζοντας τα όρια του διαθέσιμου υλικού και εγείροντας ανησυχίες σχετικά με τη βιωσιμότητά της. Για την αντιμετώπιση της απαιτητικής φύσης των μοντέλων της Βαθιάς Μάθησης, καταβάλλονται αυξανόμενες προσπάθειες για την ταχύτερη εκπαίδευση των μοντέλων και την αποδοτικότερη εξαγωγή συμπερασμάτων, καθώς και την ανάπτυξη τεχνολογιών προηγμένου υπολογιστικού υλικού, με στόχο τη μείωση της κατανάλωσης ενέργειας. Με κίνητρο το γεγονός ότι η ανάπτυξη της Βαθιάς Μάθησης έγινε δυνατή μόνο όταν το κατάλληλο υλικό αναπτύχθηκε για να υποστηρίξει τις αναδυόμενες ανάγκες των μεθοδολογιών, η παρούσα Διατριβή επιχειρεί να καθιερώσει μια ολιστική προσέγγιση για την αποδοτικότερη Βαθιά Μάθηση, ενσωματώνοντας τον συν-σχεδιασμό λογισμικού-υλικού. Πιο συγκεκριμένα, οι μέθοδοι που προτείνονται στην παρούσα εργασία στοχεύουν στη μεγιστοποίηση της αποδοτικότητας του υπολογιστικού υλικού, την αποδοτικότερη εκπαίδευση και εφαρμογή των μοντέλων Βαθιάς Μάθησης, λαμβάνοντας υπόψη τους περιορισμούς των ψηφιακών και οπτικών διατάξεων που εφαρμόζονται. Για τον σκοπό αυτό, η παρούσα Διατριβή εισάγει μεθοδολογίες που κυμαίνονται από την εκπαίδευση με επίγνωση του θορύβου και του οπτικού υλικού έως την κβαντοποίησης των νευρωνικών δικτύων. Πιο συγκεκριμένα, στη Διατριβή προτείνεται μεθοδολογία προσαρμοζόμενης αρχικοποίησης των βαρών, ενσωματώνοντας την ιδιαίτερη φύση των οπτικών διατάξεων και των αναπόφευκτών πηγών θορύβου. Επιπροσθέτως, εισάγονται μεθοδολογίες για την εκπαίδευση με διακριτοποίηση, στοχεύοντας την αποτελεσματική εφαρμογή νευρωνικών δικτύων με τη χρήση ομοιόμορφης και μικτής αριθμητικής ακρίβειας. Η προτεινόμενη μέθοδος για εκπαίδευση με διακριτοποίηση εγγυάται την αποτελεσματικότητα των νευρωνικών δικτύων με χαμηλότερη αριθμητική ακρίβεια, λαμβάνοντας υπόψη την κατανομή των παραμέτρων κατά τη διάρκεια της εκπαίδευσης. Αντίστοιχα, η προτεινόμενη μεθοδολογία εκπαίδευσης με μικτή αριθμητική ακρίβεια, εκμεταλλεύεται την πειραματική παρατήρηση ότι τα ενδιάμεσα επίπεδα των δικτύων είναι ανθεκτικότερα στον θόρυβο διακριτοποίησης από ό,τι τα ακριανά και υλοποιεί στοχαστική προοδευτική μείωση της αριθμητικής ακρίβειας των επιπέδων, ανάλογα με τη θέση τους στο δίκτυο. Επιπλέον, προτείνεται καινοτόμος μη-αρνητικός ισομορφικός μετασχηματισμός νευρωνικών δικτύων που καθιστα δυνατή τη μετατροπή τυπικά εκπαιδευμένων δικτύων σε ισοδύναμα μη-αρνητικά δίκτυα. Ο ισομορφικός μετασχηματισμός εγγυάται την εφαρμογή πλήρως μη-αρνητικών παραμέτρων και ενδιάμεσων τιμών κατά την εξαγωγή συμπερασμάτων, χωρίς απώλειες στην ακρίβεια ταξινόμησης. Παράλληλα, παρουσιάζονται πειραματικά ευρήματα που αναδεικνύουν τη συνεισφορά των μη-αρνητικών νευρωνικών δικτύων στη βελτίωση της επεξηγησιμότητας και της υλοποίησής τους στο οπτικό υλικό. Τέλος, προτείνεται πλαίσιο εργασίας για την εφαρμογή εναλλακτικών κανόνων ανανέωσης βαρών και εισάγεται μέθοδος πολλαπλασιαστικής βελτιστοποίησης. Ο προτεινόμενος κανόνας πολλαπλασιαστικής ανανέωσης εγγυάται μη-αρνητική βελτιστοποίηση, καθώς και την ταχύτερη εκπαίδευση των τυπικών νευρωνικών δικτύων και την εύρωστη εφαρμογή τους. Όπως τεκμηριώνεται στη Διατριβή, οι προτεινόμενες μεθοδολογίες επιτρέπουν ένα ευρύ φάσμα καινοτόμων εφαρμογών που απαιτούν υπέρ-υψηλές ταχύτητες εξαγωγής συμπερασμάτων και χαμηλή κατανάλωση ενέργειας, ενώ δίνουν τη δυνατότητα για την αποτελεσματική χρήση οπτικών διατάξεων στους επιταχυντές της Βαθιάς Μάθησης, ανοίγοντας περαιτέρω ερευνητικές κατευθύνσεις.
περισσότερα
Περίληψη σε άλλη γλώσσα
In recent years, Deep Learning (DL) has made tremendous contributions to both academic research and industry, leading to state-of-the-art performance in a wide range of applications. However, DL models increasingly require more powerful hardware, raising concerns regarding their sustainability. To address the demanding nature of DL and meet the modern challenges, a growing effort has been made to develop advanced methodologies for both efficient training and inference, as well as for designing specialized hardware targeting increased speed and reduced energy consumption. Motivated by the fact that the advent of DL became feasible only when the appropriate hardware was designed to support the emerging needs arising from developed methodologies, this Thesis attempts to establish a more holistic approach to DL efficiency, incorporating software-hardware co-design. Thus, it aims to improve the efficiency of hardware, training, and inference, taking into account cutting-edge photonic hardwa ...
In recent years, Deep Learning (DL) has made tremendous contributions to both academic research and industry, leading to state-of-the-art performance in a wide range of applications. However, DL models increasingly require more powerful hardware, raising concerns regarding their sustainability. To address the demanding nature of DL and meet the modern challenges, a growing effort has been made to develop advanced methodologies for both efficient training and inference, as well as for designing specialized hardware targeting increased speed and reduced energy consumption. Motivated by the fact that the advent of DL became feasible only when the appropriate hardware was designed to support the emerging needs arising from developed methodologies, this Thesis attempts to establish a more holistic approach to DL efficiency, incorporating software-hardware co-design. Thus, it aims to improve the efficiency of hardware, training, and inference, taking into account cutting-edge photonic hardware architectures and making them practically deployable. To this end, it introduces methodologies ranging from noise-aware and optics-informed training methods to advanced quantization-aware training approaches for both uniform and mixed-precision low-bit resolution neural networks. More specifically, the proposed hardware-aware training method takes into consideration the limitations that arise from the unique nature of optical components, including noise sources and highly saturated transfer functions, it introduces an adaptive data-driven initialization method. Then, the novel quantization-aware method reduces quantization error during inference, which enables lower bit resolution models without significant performance degradation, by quantizing parameters based on their statistical distribution. In turn, the proposed mixed precision quantization-aware training method formalizes a stochastic reduction in bit resolution for each layer based on its position, progressively lowering the bit resolution of layers that are more tolerant to quantization error. Furthermore, the Thesis introduces a novel isomorphic non-negative transformation that allows the transformation of any regularly trained model into its non-negative equivalent, ensuring that all parameters involved in the decision of the network are non-negative. In this way, the proposed isomorphic transformation unlocks the capability to perform non-negative inference without any performance degradation in a wide range of neural network architectures. In turn, the Thesis provides evidence for improved explainability and hardware integration when non-negative neural networks are applied, while proposing a generic optimization framework that enables the introduction of a novel multiplicative update rule. The multiplicative update rule can be integrated into any typical DL optimization method enabling non-negative training, robust inference and accelerated convergence. As demonstrated, the proposed methodologies unlock numerous applications that require high-speed inference and low energy consumption and enables the effective experimental use of optical hardware layouts in DL accelerators.
περισσότερα