Περίληψη
Η μηχανική μάθηση (Machine Learning – ML) έχει μετασχηματίσει καθοριστικά πολλά πεδία εφαρμογών όπως η υπολογιστική όραση, η επεξεργασία φυσικής γλώσσας και η ρομποτική. Ωστόσο, οι υπολογιστικές απαιτήσεις των σύγχρονων μοντέλων βαθιάς μάθησης υπερβαίνουν κατά πολύ τις δυνατότητες των συμβατικών επεξεργαστών. Αυτή η πρόκληση έχει οδηγήσει στην ανάπτυξη εξειδικευμένων επιταχυντών, με κυριότερο παράδειγμα τους συστολικούς πίνακες (systolic arrays), οι οποίοι υπερέχουν στον υπολογισμό πράξεων μεταξύ πινάκων που κυριαρχούν στον υπολογισμό των νευρωνικών δικτύων. Παρόλα αυτά, η επίτευξη υψηλής απόδοσης και ενεργειακής αποδοτικότητας στα σύγχρονα μοντέλα απαιτεί την αποτελεσματική αντιμετώπιση αραιών μοντέλων μηχανικής μάθησης καθώς και την σχεδίαση υλικού που είναι ανθεκτικό σε σφάλματα. Η παρούσα διατριβή αντιμετωπίζει αυτές τις προκλήσεις προτείνοντας ένα σύνολο βελτιστοποιήσεων υλικού που ενισχύουν την απόδοση και την αξιοπιστία των συστολικών πινάκων και των επεκτάσεών τους για αραιούς ...
Η μηχανική μάθηση (Machine Learning – ML) έχει μετασχηματίσει καθοριστικά πολλά πεδία εφαρμογών όπως η υπολογιστική όραση, η επεξεργασία φυσικής γλώσσας και η ρομποτική. Ωστόσο, οι υπολογιστικές απαιτήσεις των σύγχρονων μοντέλων βαθιάς μάθησης υπερβαίνουν κατά πολύ τις δυνατότητες των συμβατικών επεξεργαστών. Αυτή η πρόκληση έχει οδηγήσει στην ανάπτυξη εξειδικευμένων επιταχυντών, με κυριότερο παράδειγμα τους συστολικούς πίνακες (systolic arrays), οι οποίοι υπερέχουν στον υπολογισμό πράξεων μεταξύ πινάκων που κυριαρχούν στον υπολογισμό των νευρωνικών δικτύων. Παρόλα αυτά, η επίτευξη υψηλής απόδοσης και ενεργειακής αποδοτικότητας στα σύγχρονα μοντέλα απαιτεί την αποτελεσματική αντιμετώπιση αραιών μοντέλων μηχανικής μάθησης καθώς και την σχεδίαση υλικού που είναι ανθεκτικό σε σφάλματα. Η παρούσα διατριβή αντιμετωπίζει αυτές τις προκλήσεις προτείνοντας ένα σύνολο βελτιστοποιήσεων υλικού που ενισχύουν την απόδοση και την αξιοπιστία των συστολικών πινάκων και των επεκτάσεών τους για αραιούς πίνακες καλύπτοντας έτσι ένα ευρύ φάσμα εφαρμογών. Αρχικά, βελτιστοποιούμε τόσο την μικροαρχιτεκτονική όσο και τη φυσική υλοποίηση πυκνών συστολικών πινάκων. Προτείνουμε το ArrayFlex, μια αρχιτεκτονική παραμετροποιήσιμης διασωλήνωσης (pipelining), που προσαρμόζει δυναμικά το βάθος του pipeline ανάλογα με τα χαρακτηριστικά της συνέλιξης που καλείται να υπολογίσει, με σκοπό την ελαχιστοποίηση της καθυστέρησης και της κατανάλωσης ισχύος. Συμπληρωματικά, προτείνουμε μία μεθοδολογία ασύμμετρης χωροθέτησης του συστολικού πίνακα που λαμβάνει υπόψη την εγγενή ανισορροπία στο πλάτος των οριζόντιων και κάθετων διασύνδεσων, οδηγώντας σε μετρήσιμες μειώσεις της κατανάλωσης ισχύος. Επιπλέον, με την κατάλληλη κωδικοποίηση των δεδομένων που εισέρχονται στο συστολικό πίνακα και την αναδιάταξη του πετυχαίνουμε σημαντική μείωση των συνολικών μεταβάσεων με αποτέλεσμα την περαιτέρω μείωση της κατανάλωσης ισχύος. Στη συνέχεια, ενισχύουμε τη μικροαρχιτεκτονική των αραιών συστολικών πινάκων που εκτελούν κλαδεμένα (pruned) μοντέλα μηχανικής μάθησης, τα οποία χρησιμοποιούνται για τη μείωση των απαιτήσεων σε μνήμη. Πιο συγκεκριμένα, προτείνουμε το DeMM, μια νέα αρχιτεκτονική πολλαπλασιασμού αραιού με πυκνό πίνακα που υποστηρίζει χαλαρή δομημένη αραιότητα διατηρώντας παράλληλα τη κανονικότητα του υλικού. Επίσης, προτείνουμε το DSSTA, έναν τανυστικό πίνακα με διαγώνια μετατεθειμένη ροή δεδομένων (diagonal-permuted dataflow) που εξαλείφει το κόστος ολίσθησης και αποθήκευσης κατά την είσοδο των δεδομένων στο συστολικό πίνακα. Και οι δύο αρχιτεκτονικές επιτυγχάνουν σημαντικές μειώσεις στην καθυστέρηση και την κατανάλωση ενέργειας για σύγχρονα φορτία συνελκτικών δικτύων. Για την ενίσχυση της αξιοπιστίας του υλικού, εισάγουμε δύο συμπληρωματικούς μηχανισμούς ανοχής σε σφάλματα: μια μέθοδο βασισμένη σε αθροίσματα ελέγχου (checksum) προσαρμοσμένη στη δομημένη αραιότητα, και ένα περιοδικό πλαίσιο ελέγχου που ανιχνεύει κατά τη διάρκεια της λειτουργίας μόνιμα σφάλματα με ελάχιστο κόστος. Από κοινού, οι τεχνικές αυτές ενισχύουν την αξιοπιστία των επιταχυντών για εφαρμογές μηχανικής μάθησης με κλαδεμένα μοντέλα. Οι μικροαρχιτεκτονικές βελτιώσεις επεκτείνονται επίσης σε επιταχυντές υλικού για Γραφο-Συνελικτικά Δίκτυα (Graph Convolutional Networks – GCNs). Πιο συγκεκριμένα, προτείνουμε το FusedGCN, μια συστολική αρχιτεκτονική τριπλού πολλαπλασιασμού μητρώων (triple-matrix) που μειώνει σημαντικά τον χρόνο εξαγωγής (inference latency) σε σχέση με προηγμένες λύσεις. Επίσης, για την ενίσχυση της αξιοπιστίας, προτείνουμε το μηχανισμό GCN-ABFT, έναν προσαρμοσμένο μηχανισμό ανοχής σε σφάλματα για GCNs που υπολογίζει το άθροισμα ελέγχου ολόκληρου του επιπέδου GCN χωρίς να απαιτείται ξεχωριστός έλεγχος για κάθε στάδιο πολλαπλασιασμού πινάκων. Επιπλέον, προτείνουμε μια μονάδα υλικού softmax βασισμένη στην παραλληλία στα δεδομένα, η οποία υποστηρίζει ευέλικτα τόσο τον υπολογισμό softmax ενός πλήρους διανύσματος όσο και τμηματικών υπολογισμών softmax για υποδιανύσματα. Ο σχεδιασμός αυτός επιτρέπει στη μονάδα να υπολογίζει είτε το πλήρες softmax ενός διανύσματος είτε πολλαπλούς μικρότερους υπολογισμούς softmax, των οποίων τα ενδιάμεσα αποτελέσματα μπορούν να επαναχρησιμοποιηθούν για την υλοποίηση διαφόρων συναρτήσεων ενεργοποίησης, όπως GELU, sigmoid ή tanh. Μέσω αυτής της επαναχρησιμοποίησης, μια μοναδική μονάδα SIMD softmax μπορεί να λειτουργήσει ως ενιαίο μπλοκ υλικού για πολλαπλές συναρτήσεις ενεργοποίησης. Συνολικά, στη διατριβή αυτή συνδυάζοντας τη μικροαρχιτεκτονική καινοτομία με την επίγνωση του φυσικού σχεδιασμού και των χαρακτηριστικών των εφαρμογών, οδηγηθήκαμε σε νέες συστολικές αρχιτεκτονικές υψηλότερης απόδοσης και αξιοπιστίας. Οι προτεινόμενες μέθοδοι καλύπτουν τόσο το πυκνό όσο και το αραιό υπολογιστικό καθεστώς των σύγχρονων μοντέλων ML, θέτοντας τα θεμέλια για την επόμενη γενιά υλικού που εξισορροπεί ταχύτητα, ενέργεια και ανθεκτικότητα σε όλο και πιο απαιτητικά περιβάλλοντα εφαρμογών.
περισσότερα
Περίληψη σε άλλη γλώσσα
Machine learning (ML) has rapidly evolved into a transformative technology, driving advances across diverse domains such as computer vision, natural language processing, and robotics. However, the computational demands of modern deep learning models far exceed the capabilities of conventional processors. This challenge has motivated the development of domain-specific accelerators, particularly systolic arrays, which excel at the dense and regular matrix operations that dominate neural network workloads. Achieving high performance and energy efficiency on modern models, however, also requires addressing challenges such as sparsity, fault tolerance, and workload irregularity. This thesis tackles these challenges by proposing a set of hardware optimizations that improve the performance, efficiency, and reliability of systolic arrays and their tensor-based extensions for a broad range of machine learning applications. First, we investigate microarchitectural and physical-design-oriented op ...
Machine learning (ML) has rapidly evolved into a transformative technology, driving advances across diverse domains such as computer vision, natural language processing, and robotics. However, the computational demands of modern deep learning models far exceed the capabilities of conventional processors. This challenge has motivated the development of domain-specific accelerators, particularly systolic arrays, which excel at the dense and regular matrix operations that dominate neural network workloads. Achieving high performance and energy efficiency on modern models, however, also requires addressing challenges such as sparsity, fault tolerance, and workload irregularity. This thesis tackles these challenges by proposing a set of hardware optimizations that improve the performance, efficiency, and reliability of systolic arrays and their tensor-based extensions for a broad range of machine learning applications. First, we investigate microarchitectural and physical-design-oriented optimizations for dense systolic arrays. We introduce ArrayFlex, an architecture featuring a configurable pipeline that dynamically adjusts its depth across convolutional layers to minimize latency and energy consumption during convolutional neural network execution. Complementing this, we propose an asymmetric Floorplanning methodology that accounts for the inherent imbalance in horizontal and vertical interconnect demands, resulting in measurable reductions in interconnect power. Building on these foundations, we further lower switching activity through dynamic encoding and weight reordering, leveraging workload-aware data characteristics to achieve significant power savings with minimal hardware overhead. Second, we enhance the microarchitecture of sparse systolic tensor arrays designed to execute pruned machine learning models, which are often employed to reduce memory and storage requirements. We propose DeMM, a disaggregated matrix multiplication engine that supports relaxed sparsity patterns while maintaining hardware regularity, and DSSTA, a tensor array featuring a diagonal-permuted dataflow that eliminates skewing overhead. Both architectures achieve substantial reductions in latency and power consumption for modern CNN workloads. To further ensure reliability, we introduce two complementary fault-tolerance mechanisms: a checksum-based ABFT method adapted for structured sparsity, and a periodic online testing framework that detects permanent faults with minimal overhead. Together, these techniques enhance the robustness of sparse tensor accelerators for safety-critical machine learning applications. Microarchitecture improvements are also extended to hardware accelerators for Graph Convolutional Networks. More specifically, we propose FusedGCN, a fused triple-matrix systolic architecture that significantly reduces inference latency compared to state-of-the-art accelerators. To enhance reliability, we also introduce GCN-ABFT, a custom fault-tolerance mechanism for GCNs that computes checksum for the whole GCN layer without relying on separate checksums for each matrix multiplication step. Also, we propose a SIMD-based softmax hardware unit that flexibly supports both full-vector and segmented softmax computations. This design enables the unit to compute a complete softmax over an input vector or multiple smaller softmax operations over its sub-vectors. The intermediate results from these sub-vector computations can be efficiently reused to implement various activation functions, such as GELU, sigmoid or tanh. By leveraging this reuse, a single SIMD softmax unit can serve as a unified hardware block for multiple activation functions, reducing hardware redundancy and improving overall resource efficiency. Overall, this work demonstrates that by combining micro-architectural innovation, physical implementation awareness, and application-driven co-design, systolic and tensor array accelerators can be significantly improved in terms of performance, energy efficiency, and reliability. The proposed methods address both the dense and sparse computation regimes of modern ML models, laying the foundation for next-generation hardware that balances speed, energy, and robustness in increasingly demanding application contexts.
περισσότερα