Περίληψη
Η παρούσα διδακτορική διατριβή παρουσιάζει την ανάπτυξη νέων αρχιτεκτονικών επαναλαμβανόμενων νευρωνικών δικτύων (Recurrent Neural Networks − RNNs), εισάγοντας νέες συναρτήσεις ενεργοποίησης και διακριτές χρονικές διατυπώσεις, με στόχο την αντιμετώπιση χρονικά μεταβαλλόμενων προβλημάτων της αριθμητικής γραμμικής άλγεβρας. Αν και έχει αποδειχθεί ότι οι μη γραμμικές συναρτήσεις ενεργοποίησης βελτιώνουν την ταχύτητα σύγκλισης των μοντέλων Zeroing Neural Network (ZNN), τα υφιστάμενα πλαίσια ZNN επιβάλλουν αυστηρούς περιορισμούς—απαιτώντας οι συναρτήσεις ενεργοποίησης να είναι ταυτόχρονα περιττές και μονότονα αύξουσες. Αυτοί οι περιορισμοί μειώνουν την ευελιξία και την εκφραστική ικανότητα των μοντέλων, αναδεικνύοντας την ανάγκη για καινοτομία στον τομέα αυτό. Ως απάντηση, η διατριβή προτείνει ενισχυμένα μοντέλα που βελτιώνουν σημαντικά την ακρίβεια και την απόδοση σύγκλισης των παραδοσιακών προσεγγίσεων. Η διατριβή οργανώνεται σε τέσσερα κεφάλαια. Στο Πρώτο Κεφάλαιο εισάγονται θεμελιώδεις ...
Η παρούσα διδακτορική διατριβή παρουσιάζει την ανάπτυξη νέων αρχιτεκτονικών επαναλαμβανόμενων νευρωνικών δικτύων (Recurrent Neural Networks − RNNs), εισάγοντας νέες συναρτήσεις ενεργοποίησης και διακριτές χρονικές διατυπώσεις, με στόχο την αντιμετώπιση χρονικά μεταβαλλόμενων προβλημάτων της αριθμητικής γραμμικής άλγεβρας. Αν και έχει αποδειχθεί ότι οι μη γραμμικές συναρτήσεις ενεργοποίησης βελτιώνουν την ταχύτητα σύγκλισης των μοντέλων Zeroing Neural Network (ZNN), τα υφιστάμενα πλαίσια ZNN επιβάλλουν αυστηρούς περιορισμούς—απαιτώντας οι συναρτήσεις ενεργοποίησης να είναι ταυτόχρονα περιττές και μονότονα αύξουσες. Αυτοί οι περιορισμοί μειώνουν την ευελιξία και την εκφραστική ικανότητα των μοντέλων, αναδεικνύοντας την ανάγκη για καινοτομία στον τομέα αυτό. Ως απάντηση, η διατριβή προτείνει ενισχυμένα μοντέλα που βελτιώνουν σημαντικά την ακρίβεια και την απόδοση σύγκλισης των παραδοσιακών προσεγγίσεων. Η διατριβή οργανώνεται σε τέσσερα κεφάλαια. Στο Πρώτο Κεφάλαιο εισάγονται θεμελιώδεις έννοιες από τη μαθηματική ανάλυση και τη θεωρία πινάκων που υποστηρίζουν τη δομή των RNN μοντέλων. Παρουσιάζονται βασικοί ορισμοί σχετικοί με τα RNN, οι πιο διαδεδομένες επαναλαμβανόμενες αρχιτεκτονικές, καθώς και ευρέως χρησιμοποιούμενες συναρτήσεις ενεργοποίησης. Επιπλέον, συζητούνται βασικά θεωρήματα από τη θεωρία δυναμικών συστημάτων και προγραμματιστικές τεχνικές που χρησιμοποιούνται καθ’ όλη τη διάρκεια της έρευνας. Το κεφάλαιο ολοκληρώνεται με μια επισκόπηση εφαρμογών πραγματικού κόσμου όπου τα RNN έχουν αποδειχθεί αποτελεσματικά στην επίλυση πρακτικών προβλημάτων. Στο Δεύτερο Κεφάλαιο επεκτείνεται το πλαίσιο του Zhang Neural Network (ZNN) ώστε να αντιμετωπίζει περιπτώσεις στις οποίες η χρονική παράγωγος της Zhang συνάρτησης δεν υφίσταται σε ορισμένα σημεία. Για την επίλυση τέτοιων περιπτώσεων—όπου η συνάρτηση σφάλματος E(t), είτε πρόκειται για πίνακα, διάνυσμα ή βαθμωτή ποσότητα, περιέχει μη διαφορίσιμα στοιχεία—προτείνονται δύο νέες προσεγγίσεις. Επιπλέον, εισάγεται μια νέα οικογένεια συναρτήσεων ενεργοποίησης, σχεδιασμένη ειδικά για ενσωμάτωση στο πλαίσιο ZNN. Οι συναρτήσεις αυτές χρησιμοποιούνται για την κατασκευή προηγμένων μοντέλων επίλυσης χρονικά μεταβαλλόμενων εξισώσεων πινάκων, όπως οι εξισώσεις Stein, Sylvester και Γενικευμένη Sylvester. Σε σύγκριση με προηγούμενα μη γραμμικά RNN μοντέλα με συμβατικές συναρτήσεις ενεργοποίησης, τα προτεινόμενα μοντέλα παρουσιάζουν σημαντικά βελτιωμένους ρυθμούς σύγκλισης. Προσομοιώσεις σε περιβάλλον Simulink επιβεβαιώνουν την αποτελεσματικότητα των μοντέλων, καταδεικνύοντας ταχύτερη σύγκλιση και αυξημένη ακρίβεια των λύσεων. Στο Τρίτο Κεφάλαιο εξετάζεται η εφαρμογή τεχνικών διακριτοποίησης στο πλαίσιο των ZNN δικτύων, οδηγώντας στη διαμόρφωση νέων διακριτών χρονικών μοντέλων RNN. Τα μοντέλα αυτά χρησιμοποιούνται για την επίλυση ποικίλων μαθηματικών προβλημάτων, όπως η αντιστροφή πινάκων και η μη γραμμική βελτιστοποίηση. Επιπλέον, τα διακριτά μοντέλα εφαρμόζονται σε ρομποτικές εφαρμογές, όπως ο έλεγχος ρομποτικού βραχίονα και ο έλεγχος παρακολούθησης της πλατφόρμας Stewart. Τα πειραματικά αποτελέσματα δείχνουν ότι τα προτεινόμενα μοντέλα υπερέχουν των υπαρχόντων διακριτών μεθόδων ως προς την ακρίβεια. Τέλος, τα Παραρτήματα Α και Β περιλαμβάνουν τα διαγράμματα Simulink των βασικών RNN μοντέλων και των συναρτήσεων ενεργοποίησης που χρησιμοποιήθηκαν στις συγκριτικές αναλύσεις, καθώς και εκείνων που προτείνονται στο πλαίσιο αυτής της εργασίας.
περισσότερα
Περίληψη σε άλλη γλώσσα
This PhD thesis presents the development of novel recurrent neural network (RNN) architectures, introducing new activation functions and discrete-time formulations to address time-varying problems in numerical linear algebra. While nonlinear activation functions have been shown to enhance the convergence speed of Zeroing Neural Network (ZNN) models, existing ZNN frameworks typically impose strict constraints—requiring activation functions to be both strictly odd and monotonically increasing. These limitations reduce the flexibility and expressive capacity of the models, underscoring the need for innovation in this area. In response, this thesis proposes enhanced models that significantly improve the accuracy and convergence performance of traditional approaches. The thesis is structured into four chapters. Chapter One introduces foundational concepts from mathematical analysis and matrix theory that support the structure of RNN models. It also reviews key definitions related to RNNs, c ...
This PhD thesis presents the development of novel recurrent neural network (RNN) architectures, introducing new activation functions and discrete-time formulations to address time-varying problems in numerical linear algebra. While nonlinear activation functions have been shown to enhance the convergence speed of Zeroing Neural Network (ZNN) models, existing ZNN frameworks typically impose strict constraints—requiring activation functions to be both strictly odd and monotonically increasing. These limitations reduce the flexibility and expressive capacity of the models, underscoring the need for innovation in this area. In response, this thesis proposes enhanced models that significantly improve the accuracy and convergence performance of traditional approaches. The thesis is structured into four chapters. Chapter One introduces foundational concepts from mathematical analysis and matrix theory that support the structure of RNN models. It also reviews key definitions related to RNNs, common recurrent architectures, and widely used activation functions. Essential theorems from dynamical systems theory and core programming techniques employed throughout the research are also discussed. The chapter concludes with a survey of real-world applications where RNNs have proven effective in solving practical problems. Chapter Two extends the Zhang Neural Network (ZNN) framework to handle cases where the time derivative of the Zhangian function does not exist at certain points. To address such scenarios—where the indefinite error function E(t), whether matrix-, vector-, or scalar-valued, contains non-differentiable elements—two novel approaches are proposed. In addition, a new family of activation functions, specifically designed for integration within the ZNN framework, is introduced. These are used to construct advanced models for solving time-varying matrix equations, including the Stein, Sylvester, and Generalized Sylvester equations. Compared to earlier nonlinear RNN models with conventional activation functions, the proposed models exhibit significantly improved convergence rates. Simulink-based simulations validate the effectiveness of these models, demonstrating both faster convergence and improved solution accuracy. In Chapter Three, the thesis explores the application of discretization techniques to the ZNN framework, resulting in the formulation of novel discrete-time RNN models. These models are employed to solve a range of mathematical problems, such as matrix inversion and nonlinear optimization. Additionally, the discrete-time models are applied to robotics tasks, including robotic manipulator control and tracking control for the Stewart platform. Experimental results show that these models outperform existing discrete-time methods in terms of accuracy. Finally, Appendices A and B include Simulink diagrams of the baseline RNN models and activation functions used in comparative analyses, alongside those of the novel formulations proposed in this work.
περισσότερα