Συμβολή στην ανάπτυξη πολυπρακτορικής αρχιτεκτονικής αναπτυξιακού ρομποτικού ελέγχου στη βάση ασαφούς ενισχυτικής μάθησης: εφαρμογή στον επιδέξιο ρομποτικό χειρισμό

Η παρούσα διατριβή, προτείνει μια ιεραρχική πολυπρακτορική αρχιτεκτονική εφαρμοσμένη στο πεδίο του επιδέξιου ρομποτικού χειρισμού. Η προτεινόμενη αρχιτεκτονική βασίζεται σε μία εμφωλευμένη ιεραρχική δομή, όπου κάθε πράκτορας σχηματίζει (τοπικά) εικόνα για τη συνολική (γενικευμένη) κατάσταση του συστήματος καθώς επίσης και για την εξέλιξη της εργασίας, μέσω μιας ανάδρομης (top-down / bottom-up) διαδικασίας. Με την οργάνωση των πρακτόρων σε ένα συγκεκριμένο πρότυπο εμφωλευμένης αρχιτεκτονικής, όπως αυτό που προτείνεται στο πλαίσιο της παρούσης διατριβής επιτρέπεται α) περαιτέρω επεκτασιμότητα σε σαφώς πιο σύνθετες κινηματικές τοπολογίες, και β) η μοντελοποίηση του συστήματος συνολικά με ένα τμηματικό (modular) και παράλληλα, δομημένο (structural) τρόπο. Η προτεινόμενη μεθοδολογία βασίζεται στην εφαρμογή μηχανισμών ασαφούς ενισχυτικής μάθησης, με σκοπό την εξέλιξη, σε τοπικό επίπεδο για κάθε πράκτορα, μιας αντιστοίχισης καταστάσεων - δράσεων σε ένα συνεχές πεδίο, δημιουργώντας με αυτό τον τρόπο ένα πολυπρακτορικό σύστημα το οποίο επιδεικνύει αναπτυξιακές ιδιότητες. Οι πράκτορες αντιστοιχούν σε ανεξάρτητους βαθμούς ελευθερίας του συστήματος, οι οποίοι επιτυγχάνουν να αποκτήσουν εμπειρία και να αναπτύξουν δεξιότητες σχετικές με την εκτέλεση συγκεκριμένων εργασιών συνεργατικού χειρισμού, μέσω μιας συνεχόμενης διαδικασίας εξερεύνησης (exploration) και αξιοποίησης (exploitation) του χώρου αντιστοίχισης καταστάσεων - δράσεων. Η παρούσα διατριβή μελετά την εφαρμογή της προτεινόμενης μεθοδολογίας πολυπρακτορικού αναπτυξιακού ελέγχου σε προβλήματα που προέρχονται από το χώρο του επιδέξιου ρομποτικού χειρισμού, ενώ παράλληλα εξετάζει την επεκτασιμότητα της συγκεκριμένης αρχιτεκτονικής σε συνεργατικά αυτοκινούμενα ρομποτικά συστήματα. Πιο συγκεκριμένα, εκτελέσθηκαν και παρουσιάζονται τρία σύνολα πειραματικών δοκιμών με στόχο την αξιολόγηση της προτεινόμενης μεθοδολογίας: 1) το πρώτο σύνολο αριθμητικών πειραμάτων θεωρεί την περίπτωση απλής ανοικτής κινηματικής αλυσίδας η οποία παρουσιάζει κινηματικούς πλεονασμούς (kinematic redundancies) ως προς τον επιθυμητό στόχο, 2) το δεύτερο πείραμα επεκτείνει περαιτέρω την προηγούμενη περίπτωση, θεωρώντας τρεις παράλληλες κινηματικές αλυσίδες οι οποίες συνεργατικά προσπαθούν να επιτύχουν σταθερή ρομποτική λαβή, ενώ 3) το τελευταίο πείραμα εφαρμόζει την προτεινόμενη τοπολογία σε αυτοκινούμενα ρομπότ τα οποία πραγματοποιούν εργασία τύπου ``box - pushing'' (δηλαδή, από κοινού ώθηση χειριζόμενου αντικειμένου σε επιθυμητή θέση-στόχο). Οι πειραματικές αυτές δοκιμές αποσκοπούν στην αποτίμηση της ικανότητας που παρουσιάζει το προτεινόμενο πολυπρακτορικό σύστημα ως προς την αυτόνομη και προοδευτική απόκτηση συνεργατικών δεξιοτήτων μέσω μιας εσωτερικής διεργασίας μάθησης. Αυτή η εσωτερική διεργασία μάθησης δεν βασίζεται σε κάποιο εκ των προτέρων δεδομένο πλήρες μοντέλο της εκτελούμενης εργασίας, ούτε ακολουθεί κάποια στρατηγική καθολικής σχεδίασης δράσης βάσει ενός τέτοιου συνολικού μοντέλου. Τα πειραματικά αποτελέσματα που παρουσιάζονται στην παρούσα διατριβή δείχνουν την επεκτασιμότητα της προτεινόμενης εμφωλευμένης\textlatin{-}ιεραρχικής αρχιτεκτονικής, όπου νέοι πράκτορες μπορούν αναδρομικά να προστεθούν στην τοπολογία καλύπτοντας διαφορετικούς βαθμούς ελευθερίας. Επιπλέον, αναλύονται χαρακτηριστικά γενίκευσης γνώσης καθώς και ευρωστίας της προτεινόμενης μεθοδολογίας κινηματικού ελέγχου σε απρόβλεπτες αστοχίες δομικών στοιχείων του ρομποτικού συστήματος. Τα πειραματικά αποτελέσματα τα οποία παρουσιάζονται υπογραμμίζουν τις δυνατότητες που παρέχει ένα τέτοιο κατανεμημένο σχήμα ρομποτικού ελέγχου, καταδεικνύοντας την επιτυχή εκτέλεση συνεργατικών κινήσεων οι οποίες οδηγούν το ρομποτικό σύστημα σε κινηματικές λύσεις συγκρίσιμες με τις θεωρητικά βέλτιστες (near-optimal). Αναλύοντας τα αποτελέσματα που προέκυψαν από την παρούσα διατριβή, διαφαίνεται ότι ένα τέτοιο κατανεμημένο πλαίσιο ρομποτικής μάθησης διαθέτει δυνητικά υψηλό βαθμό επεκτασιμότητας στον έλεγχο ρομποτικών συστημάτων τα οποία μπορεί να είναι κινηματικά πιο σύνθετα, αποτελούμενα από πολλαπλούς βαθμούς ελευθερίας τόσο σε ανοικτές όσο και σε κλειστές κινηματικές τοπολογίες.

περισσότερα

Περίληψη σε άλλη γλώσσα

This thesis proposes a model-free learning mechanism based on a nested hierarchical multi-agent architecture, which is applied in the context of dexterous robot manipulation control. In the proposed multi-agent system, each agent forms a local (partial) view of the global system state and task progress, through a recursive (top-down/bottom-up) learning process. By organizing the agents in a nested architecture, the goal is to facilitate modular scaling to more complex kinematic topologies, with loose control coupling among the agents. Reinforcement learning is applied within each agent, to evolve a local state-to-action mapping in a continuous domain, thus leading to a system that exhibits developmental properties. The agents correspond in fact to independent degrees-of-freedom (DOF) of the system, managing to gain experience over the task that they collaboratively perform by continuously exploring and exploiting their state-to-action mapping space. This thesis addresses problem settings in the domain of kinematic control of dexterous robot manipulation. Three sets of numerical experiments are performed: (i) the first one considers the case of a single-linkage open kinematic chain, presenting kinematic redundancies given the desired task-goal, (ii) the second experiment extends further on the previous case by considering three individual kinematic chains cooperatively acting to achieve a quasi-static multifinger grasp, and (iii) the last experiment extends the proposed multi-agent framework to a control problem in the field of autonomous mobile robots, by considering two e-Puck robots performing a collaborative “box-pushing” task. The focal issue in all experiments is to assess the capacity of the proposed multi-agent system to progressively and autonomously acquire cooperative sensorimotor skills through a self-learning process, that is, without the use of any explicit model-based planning strategy. Generalization and robustness properties of the overall multi-agent system are also explored. Furthermore, these experiments aim to demonstrate the scaling properties of the proposed nested-hierarchical architecture, where new higher-level agents can be recursively added in the hierarchy to encapsulate individual active DOFs. The experimental results presented in this thesis demonstrate the feasibility of such a distributed multi-agent control framework, showing that the solutions which emerge are plausible and near-optimal.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (7.13 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/28668
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/28668
ND	28668
Εναλλακτικός τίτλος	Contribution to the development of a distributed multi-agent architecture for developmental robotic control on the basis of fuzzy logic and reinforcement learning techniques: Application in the domain of dexterous manipulation
Συγγραφέας	Καρύγιαννης, Ιωάννης (Πατρώνυμο: Νικόλαος)
Ημερομηνία	2012
Ίδρυμα	Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής
Εξεταστική επιτροπή	Τζαφέστας Σ. Μαραγκός Π. Τζαφέστας Κ. Σταφυλοπάτης Α. Παπαβασιλόπουλος Γ. Κυριακόπουλος Κ. Τζες Α.
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμες Ηλεκτρονικών Υπολογιστών & Πληροφορικής Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Τεχνητή νοημοσύνη; Αναπτυξιακή ρομποτική; Ενισχυτική μάθηση; Επιδέξιος ρομποτικός χειρισμός; Πολυπρακτορικά ρομποτικά συστήματα
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	178 σ., εικ., πιν., σχημ., γραφ., ευρ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

ΣΧΕΔΙΑΣΗ ΚΑΙ ΚΑΤΑΣΚΕΥΗ ΕΝΕΡΓΕΙΑΚΟΥ ΜΟΝΤΕΛΟΥ ΠΡΟΣΟΜΟΙΩΣΗΣ ΤΗΣ ΙΣΟΡΡΟΠΙΑΣ ΤΩΝ ΕΝΕΡΓΕΙΑΚΩΝ ΑΓΟΡΩΝ

Ανάπτυξη ευφυών αλγόριθμων στην ιατρική διαγνωστική

ΒΡΑΧΥΧΡΟΝΙΕΣ ΠΡΟΒΛΕΨΕΙΣ ΤΗΣ ΜΗΝΙΑΙΑΣ ΖΗΤΗΣΗΣ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΣΤΗΝ ΕΛΛΑΔΑ

Ανακάλυψη γνώσης από ακολουθίες και δεδομένα συναλλαγών

Ανάλυση, σχεδιασμός και υλοποίηση αλγορίθμων υπολογιστικής νοημοσύνης στη βιοϊατρική και τη βιοπληροφορική

Μέθοδοι βιοπληροφορικής, υπολογιστικής συστημικής βιολογίας και μηχανικής μάθησης, εφαρμοσμένες στην in silico ογκολογία

Ανάπτυξη ενοποιημένων τεχνικών διαχείρισης και επεξεργασίας βιολογικών δεδομένων με εφαρμογές στη μελέτη της γονιδιακής έκφρασης

Η ανάλυση των περιφερειακών συστημάτων καινοτομίας

Προσδιορισμός των διαθέσεων των φοιτητών προς τη στατιστική με μεθόδους της πολυδιάστατης στατιστικής Ανάλυσης.

Καινοτομικές δραστηριότητες και οικονομική ανάπτυξη: μια διαπεριφερειακή προσέγγιση της Ελλάδας στην Ευρωπαϊκή Ένωση

"Συμβολή στην ανάπτυξη πολυπρακτορικής αρχιτεκτονικής αναπτυξιακού ρομποτικού ελέγχου στη βάση ασαφούς ενισχυτικής μάθησης: εφαρμογή στον επιδέξιο ρομποτικό χειρισμό"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .