Περίληψη
Η αυξανόμενη απαίτηση για ευφυή και ενεργειακά αποδοτικά συστήματα έχει οδηγήσει στην εντατική διερεύνηση των νευρομορφικών υπολογιστικών προσεγγίσεων, όπως είναι τα Νευρωνικά Δίκτυα Αιχμών (Spiking Neural Networks – SNNs). Η παρούσα διδακτορική διατριβή πηγάζει από την ανάγκη σχεδιασμού υπολογιστικά αποδοτικών, βιοεμπνευσμένων μαθησιακών μοντέλων, ικανών να διαχειρίζονται σύνθετα προβλήματα αντίληψης και ελέγχου, ιδίως σε περιπτώσεις περιορισμένου όγκου ρομποτικών λύσεων καθως και περιορισμένων ενεργειακών πόρων. Τα SNNs αποτελούν μία πολλά υποσχόμενη κατεύθυνση χάρη στις δυνατότητες επεξεργασίας πληροφορίας χρονικά και στη συμβατότητά τους με νευρομορφικό υλικό. Η διατριβή αυτή αντιμετωπίζει ένα σύνθετο πρόβλημα στον χώρο της πολυτροπικής αντίληψης και του ελέγχου, αξιοποιώντας τις μοναδικές ιδιότητες των SNNs. Συγκεκριμένα, επικεντρώνεται στην ανάπτυξη και αξιολόγηση αρχιτεκτονικών εκμάθησης βασισμένων σε αιχμές σε τρεις αλληλοσυνδεόμενους τομείς, όπως η πολυτροπική διάκριση χαρακτη ...
Η αυξανόμενη απαίτηση για ευφυή και ενεργειακά αποδοτικά συστήματα έχει οδηγήσει στην εντατική διερεύνηση των νευρομορφικών υπολογιστικών προσεγγίσεων, όπως είναι τα Νευρωνικά Δίκτυα Αιχμών (Spiking Neural Networks – SNNs). Η παρούσα διδακτορική διατριβή πηγάζει από την ανάγκη σχεδιασμού υπολογιστικά αποδοτικών, βιοεμπνευσμένων μαθησιακών μοντέλων, ικανών να διαχειρίζονται σύνθετα προβλήματα αντίληψης και ελέγχου, ιδίως σε περιπτώσεις περιορισμένου όγκου ρομποτικών λύσεων καθως και περιορισμένων ενεργειακών πόρων. Τα SNNs αποτελούν μία πολλά υποσχόμενη κατεύθυνση χάρη στις δυνατότητες επεξεργασίας πληροφορίας χρονικά και στη συμβατότητά τους με νευρομορφικό υλικό. Η διατριβή αυτή αντιμετωπίζει ένα σύνθετο πρόβλημα στον χώρο της πολυτροπικής αντίληψης και του ελέγχου, αξιοποιώντας τις μοναδικές ιδιότητες των SNNs. Συγκεκριμένα, επικεντρώνεται στην ανάπτυξη και αξιολόγηση αρχιτεκτονικών εκμάθησης βασισμένων σε αιχμές σε τρεις αλληλοσυνδεόμενους τομείς, όπως η πολυτροπική διάκριση χαρακτηριστικών, ο χειρισμός αντικειμένων και ο έλεγχος ρομποτικού βραχίονα μέσω ενισχυτικής μάθησης. Μία σημαντική εφαρμογή του παρόντος έργου αφορά τα συστήματα σε περιβάλλον υποβοηθούμενης διαβίωσης (Ambient Assisted Living – AAL), όπου τα συστήματα πρέπει να λειτουργούν με αξιοπιστία και ενεργειακή αποδοτικότητα χωρίς να παρεμβαίνουν στην καθημερινή ζωή των ηλικιωμένων. Η συμβολή της διατριβής στη σύγχρονη βιβλιογραφία τεκμηριώνεται μέσω μίας σειράς δημοσιευμένων επιστημονικών εργασιών. Επιπρόσθετα, τα κύρια σημεία συνεισφοράς συνοψίζονται ως εξής: Εισάγει το πρώτο πλαίσιο διάκρισης χαρακτηριστικών με SNNs, ανοίγοντας έναν νέο ερευνητικό άξονα στον τομέα της πολυτροπικής αντίληψης. Παρουσιάζει την πρώτη επιτυχημένη εφαρμογή ενισχυτικής μάθησης με δίκτυα αιχμών σε προβλήματα ρομποτικού ελέγχου. Επεκτείνει την παραπάνω προσέγγιση σε καθήκοντα ρομποτικού χειρισμού, αποδεικνύοντας την πρακτική της αποτελεσματικότητα. Συνολικά, προωθεί τη βιολογικά εμπνευσμένη τεχνητή νοημοσύνη για ρομποτικά συστήματα υποστήριξης ανθρώπων, με έμφαση στην Υποβοηθούμενη Καθημερινή Διαβίωση (AAL). Η διατριβή χωρίζεται σε έξι κεφάλαια. Το πρώτο κεφάλαιο θέτει το θεωρητικό υπόβαθρο παρουσιάζοντας τις βασικές αρχές των SNNs, τα μοντέλα νευρώνων (όπως LIF και Izhikevich), τις στρατηγικές κωδικοποίησης (όπως η βαθμική και χρονική κωδικοποίηση) και τους μηχανισμούς πλαστικότητας. Επιπλέον, παραθέτει μία εκτενή επισκόπηση της βιβλιογραφίας εστιάζοντας στις μεθόδους ενισχυτικής μάθησης με SNNs σε ρομποτικά συστήματα, εξετάζοντας μηχανισμούς μάθησης, μοντέλα νευρώνων και μετρικές αξιολόγησης. Οι SNN προσεγγίσεις ενισχυτικής μάθησης κατηγοριοποιούνται σε δύο κύριες κατηγορίες, δηλαδή στις βιοεμπνευσμένες (π.χ., βασισμένες στη πλαστικότητα εξαρτώμενη από τον χρονισμό της ακίδας) και τις παραλλαγές των παραδοσιακών μεθόδων ενισχυτικής μάθησης με χρήση παραγώγων. Η επισκόπηση οργανώθηκε περαιτέρω ανά εφαρμογή ρομποτικής, εξάγοντας πολύτιμες πληροφορίες για τις υπάρχουσες αδυναμίες και τις μελλοντικές κατευθύνσεις του πεδίου. Επιπλέον, παρουσιάζονται σύγχρονες προσεγγίσεις διάκρισης χαρακτηριστικών και συγχώνευσης πολυτροπικών δεδομένων. Το κεφάλαιο αυτό διαμορφώνει ένα σαφές υπόβαθρο για την έρευνα στα SNNs και αναδεικνύει τις κύριες προκλήσεις σχετικά με τη σύγκλιση, την κλιμάκωση και την εφαρμογή σε πραγματικές συνθήκες. Το δεύτερο κεφάλαιο παρουσιάζει τις βάσεις δεδομένων που χρησιμοποιήθηκαν στις εμπειρικές μελέτες. Περιλαμβάνει σύνολα δεδομένων για ταξινόμηση ήχου-εικόνας, καθώς και ένα προσαρμοσμένο σύνολο δεδομένων που συλλέχθηκε ειδικά για την αναγνώριση ενεργειών ηλικιωμένων στο πλαίσιο της υποβοήθησης της καθημερινής δραστηριότητας των ανθρώπων. Επιπρόσθετα, παρουσιάζονται οι μετρικές που χρησιμοποιήθηκαν για την αξιολόγηση της απόδοσης στην ταξινόμηση, της διαχωρισιμότητας χαρακτηριστικών και της ακρίβειας στον ρομποτικό έλεγχο. Το τρίτο κεφάλαιο εισάγει μια νέα αρχιτεκτονική πολυτροπικής συγχώνευσης βασισμένη σε SNNs για περιπτώσεις εφαρμογών αντίληψης. Αναπτύσσεται ένα δίκτυο διάκρισης πολυτροπικών χαρακτηριστικών, στον οποίο τόσο οι οπτικές όσο και οι ακουστικές ροές επεξεργάζονται με δίκτυα αιχμών. Αντί να βασίζεται σε παραδοσιακά βαθιά δίκτυα για τη συγχώνευση, η προτεινόμενη αρχιτεκτονική δίνει έμφαση στη διάκριση των χαρακτηριστικών στα πρώτα στάδια μέσω εξειδικευμένων SNN επιπέδων. Οι εικόνες και τα δεδομένα ήχου επεξεργάζονται μέσω δύο εξατομικευμένων δικτύων αιχμών. Οι δύο ροές συγχωνεύονται σε ένα νέο SNN πολυστωματικό δίκτυο (SMLP) με στρώμα L2-κανονικοποίησης που ενισχύει τη γωνιακή διαχωρισιμότητα στον λανθάνοντα χώρο. Τα πειραματικά αποτελέσματα αποκαλύπτουν ότι τα μοντέλα με SNN παρουσιάζουν όχι μόνο αντίστοιχη, αλλά και συχνά ανώτερη απόδοση σε σχέση με τα συμβατικά νευρωνικά δίκτυα υπό περιορισμούς κατανάλωσης ισχύος. Στη συνέχεια, αναλύεται η εφαρμογή της αναγνώρισης ενεργειών στο πλαίσιο του AAL. Το ζητούμενο είναι η αναγνώριση των ενεργειών ηλικιωμένων με μη παρεμβατικό, χαμηλής ισχύος εξοπλισμό. Το κεφάλαιο παρουσιάζει έναν δίκτυο αναγνώρισης ενεργειών σε πραγματικό χρόνο, βασισμένο σε RGB είσοδο βίντεο, αξιοποιώντας το βιοεμπνευσμένο δίκτυο ιεραρχικής χρονικής μνήμης (HTM) και SNNs υλοποιημένα με το εργαλείο Nengo. Τα αποτελέσματα καταδεικνύουν ότι τα μοντέλα αιχμών όχι μόνο επιτυγχάνουν συγκρίσιμη απόδοση,αλλά και υπερτερούν των παραδοσιακών μοντέλων, ενισχύοντας την ιδέα της χρήσης βιοεμπνευσμένης νοημοσύνης σε περιβάλλοντα υποβοηθούμενης διαβίωσης. Τα κεφάλαια τέσσερα και πέντε επικεντρώνονται στην ενσωμάτωση των SNNs σε ενισχυτικά πλαίσια μάθησης για ρομποτικές εφαρμογές χειρισμού. Δεδομένων των περιορισμών των παραδοσιακών βαθιών μοντέλων ενισχυτικής μάθησης (όπως η υψηλή κατανάλωση ενέργειας και η απαίτηση για μεγάλης κλίμακας υπολογιστικούς πόρους), προτείνεται ένα υβριδικό πλαίσιο που συνδυάζει την χρονική αποδοτικότητα των SNNs με τη βελτιστοποιητική ισχύ των βαθιών νευρωνικών δικτύων. Ειδικότερα, εισάγεται μία υβριδική παραλλαγή του αλγορίθμου βαθιάς ντετερμινιστικής πολιτικής (DDPG), όπου ο παράγοντας δράσης (actor) υλοποιείται με SNN ενώ ο αξιολογητής (critic) παραμένει βαθύ δίκτυο και χρησιμοποιείται μόνο κατά τη φάση της εκπαίδευσης. Η αποσύνδεση αυτή επιτρέπει την εκπαίδευση μέσω δικτύου αιχμών του παράγοντα δράσης για την παραγωγή εντολών κίνησης, διατηρώντας συμβατότητα με νευρομορφικό υλικό. Μετά την εκπαίδευση, ο ενεργοβόρος κριτής αφαιρείται και ο παράγοντας δράσης παραμένει μόνος σε λειτουργία, μειώνοντας σημαντικά το υπολογιστικό και ενεργειακό κόστος. Η υλοποίηση προσαρμόστηκε σε δύο σενάρια ρομποτικού ελέγχου, όπως ένας ρομποτικός βραχίονας με 2 βαθμούς ελευθερίας για προσέγγιση, συλλογή και μεταφορά αντικειμένων, και σε ένα πιο σύνθετο ρομπότ με 6 βαθμούς ελευθερίας που εκτελεί 3D προσέγγιση στόχων, αξιοποιώντας εικόνες RGB και λέιζερ για έλεγχο και αποφυγή εμποδίων. Τα πειραματικά αποτελέσματα και στα δύο σενάρια δείχνουν ότι η υβριδική προσέγγιση όχι μόνο ανταγωνίζεται, αλλά σε ορισμένες περιπτώσεις υπερβαίνει την απόδοση των κλασικών DDPG δικτύων σε όρους ακρίβειας, ομαλότητας τροχιάς και χρόνου σύγκλισης. Το κυριότερο είναι ότι επιτυγχάνει σημαντική ενεργειακή αποδοτικότητα, καθώς ο παράγοντας δράσης με το δίκτυο αιχμών είναι ο μόνος υπεύθυνος για την παραγωγή ενεργειών. Το γεγονός αυτό αποδεικνύει τη βιωσιμότητα του μοντέλου σε εφαρμογές όπου υπάρχουν ενεργειακοί περιορισμοί, όπως στην υποβοηθούμενη διαβίωση. Η διατριβή ολοκληρώνεται με το έκτο κεφάλαιο, το οποίο συνοψίζει τα πορίσματα και τη συμβολή του έργου. Παρουσιάζονται επίσης τα ανοικτά προβλήματα και οι προτάσεις για μελλοντική έρευνα.
περισσότερα
Περίληψη σε άλλη γλώσσα
The growing demand for intelligent and energy-efficient systems in real-world applications has emerged the exploration of neuromorphic computing approaches, such as spiking neural networks (SNNs). The motivation behind this dissertation stems from the need to design computationally efficient, bioinspired learning models capable of handling complex perception and control tasks, particularly under constrained hardware and energy budgets. Spiking neural networks offer a promising path forward due to their temporal processing capabilities and compatibility with neuromorphic hardware. Thus, this thesis tackles a cascade problem in the context of multimodal perception and control by leveraging the unique properties of SNNs. Specifically, it focuses on the development and evaluation of spike-based learning architectures across three interrelated domains: discriminative multimodal feature discrimination, object manipulation and robotic arm control via reinforcement learning (RL). An important ...
The growing demand for intelligent and energy-efficient systems in real-world applications has emerged the exploration of neuromorphic computing approaches, such as spiking neural networks (SNNs). The motivation behind this dissertation stems from the need to design computationally efficient, bioinspired learning models capable of handling complex perception and control tasks, particularly under constrained hardware and energy budgets. Spiking neural networks offer a promising path forward due to their temporal processing capabilities and compatibility with neuromorphic hardware. Thus, this thesis tackles a cascade problem in the context of multimodal perception and control by leveraging the unique properties of SNNs. Specifically, it focuses on the development and evaluation of spike-based learning architectures across three interrelated domains: discriminative multimodal feature discrimination, object manipulation and robotic arm control via reinforcement learning (RL). An important application of this work is Ambient Assisted Living (AAL), where systems must operate reliably and efficiently in non-intrusive ways to support the well-being and autonomy of elderly individuals. The contribution of this dissertation to the state-of-the-art is substantiated through a series of peer-reviewed publications. Additionally the main contributions can be summarized as follows: Introduces the first spiking feature discrimination framework, opening a novel research direction in multimodal spiking perception. Presents the first successful application of gradient-based RL with spiking neural networks for robotic control. Demonstrates the application of this approach to complex tasks such as object manipulation, showcasing its practical utility in robotic systems. Advances biologically inspired machine intelligence for human-assistive robotic systems, particularly within the scope of AAL. The dissertation at hand is articulated into six chapters. Beginning with Chapter 1, it laid the theoretical foundation of this dissertation. It introduces the principles of spiking neural networks, neuron models (e.g., LIF, Izhikevich), encoding strategies (i.e., rate, temporal), and plasticity mechanisms. Additionally, this chapter presents an extended literature review, which presents spiking RL approaches in robotics systems, focused on learning mechanisms, neuronal models, and evaluation metrics. The spiking RL models fall into two primary categories, the bioinspired (e.g. STDP-based) and the gradient-based adaptations of traditional RL methods. Thus, we further categorized the surveyed works based in robotic application, extracting valuable information about inadequacies in the field along with future directions. This chapter also provides an overview of feature discrimination methods and multimodal fusion approaches. Lastly, it clarifies the baseline of SNN research and contextualizes the challenges related to convergence, scalability, and real-world deployment. Chapter 2 presents the databases exploited to conduct our empirical studies. The above includes the utilized datasets from the field of audio-visual classification, along with the custom one, specifically collected for the task of elderly human action recognition in the field of AAL. The chapter also introduces the metrics adopted to quantify classification performance, feature separability, and robotic control accuracy. Proceeding with the main analysis of our study, Chapter 3 introduces a novel spiking multimodal fusion architecture for perception tasks. It paves the path in spiking perception with a spiking multimodal feature discrimination pipeline, where both visual and auditory modalities are processed using SNNs. Unlike existing multimodal approaches using traditional deep layers, the proposed pipeline emphasizes early-stage feature discrimination using spiking layers tailored for each modality. A spiking residual network processes the visual input, while an efficient auditory SNN complements the temporal dynamics of the auditory inputs. Subsequently, these networks are fused through a novel spiking MLP (SMLP) incorporating an L2-normalization layer to maximize angular separation in the latent feature space. The results reveal that spiking feature discrimination is a prominent research field, not only matching but in some approaches exceeding the performance of classical networks under low-power constraints. Following this, an action recognition application for AAL is examined. Here, the challenge is to identify and classifyelderly individuals’ actions using non-intrusive, low-power sensor setups. This chapter introduces a complete pipeline for real-time action recognition based on RGB video inputs. The proposed approach utilizes a biologically-inspired Hierarchical Temporal Memory (HTM), and SNNs implemented in Nengo and evaluates their suitability in constrained data availability approaches. The results reveal that spiking models can not only match but also outperform conventional models. This application directly supports the integration of bioinspired intelligence in AAL systems that must function continuously and discreetly to support human living. The fourth and fifth chapters focus on the integration of spiking neural networks into reinforcement learning frameworks for robotic manipulation tasks. Recognizing the limitations of conventional deep reinforcement learning (DRL) approaches, such as their high energy consumption and dependence on resource-intensive training, these chapters proposes a hybrid framework that combines the temporal efficiency of SNNs with the optimization capacity of deep networks. Specifically, a hybrid Deep Deterministic Policy Gradient (DDPG) algorithm is introduced, where the actor network is realized as a spiking neural network while the critic is retained as a conventional deep network, used solely during the training phase. This architectural decoupling facilitates several methodological advantages. First, the spiking actor network is trained to generate motor commands directly from sensory states, enabling real-time inference compatible with deployment. Once training is complete, the energy-intensive critic is discarded, and only the spiking actor remains active during inference, significantly reducing computational and power demands. This design was specifically designed and adapted for two distinct robotic control scenarios. The first involves a 2-degree-of-freedom robotic arm equipped with a dual-finger gripper, tasked with performing object manipulation through reach, grasp, and transfer operations. The second scenario addresses a more complex 6-degree-of-freedom robotic arm required to perform 3D target-reaching, incorporating both RGB imagery and laser-based range sensing for planning and obstacle avoidance. Experimental results across both scenarios demonstrated that the hybrid approach not only matches but in some cases surpasses the performance of classical DDPG baselines in terms of task success rate, trajectory smoothness, and convergence time. More importantly, it offers a substantial improvement in energy efficiency, as the spiking actor alone is responsible for action generation during deployment. This validates the practical viability of the proposed hybrid architecture in scenarios where energy constraints are present, such as in AAL systems. The dissertation concludes with Chapter 6 summarizing our findings and their contribution to the field. Finally, we discuss the open challenges and future directions that aim to extend the research described here.
περισσότερα