Περίληψη
Στην παρούσα διδακτορική διατριβή μελετήθηκαν μεθοδολογίες βαθιάς μάθησης για την ανάπτυξη αποδοτικών συστημάτων ρομποτικής όρασης, μεγαλύτερης ακρίβειας και ευρωστίας, τα οποία είναι κατάλληλα για ρομποτικές εφαρμογές. Αυτά τα συστήματα μπορούν να διευκολύνουν τα ρομπότ να αντιμετωπίζουν ένα ευρύ φάσμα προβλημάτων οπτικής ανάλυσης που είναι απαραίτητα για την αποτελεσματικότερη ερμηνεία του περιβάλλοντός τους, αυξάνοντας έτσι τον βαθμό αυτονομίας τους και την αξιοπιστία τους. Πιο συγκεκριμένα, η παρουσιαζόμενη έρευνα αφορά τα προβλήματα της εκτίμησης στάσης αντικειμένου, της δισδιάστατης εκτίμησης ανθρώπινης στάσης σώματος/σκελετού, της σημασιολογικής κατάτμησης εικόνας και της εκτίμησης βάθους. Οι κύριες συνεισφορές αυτής της διατριβής στο πρόβλημα της εκτίμησης στάσης αντικειμένου είναι δύο. Αρχικά, προτείνεται μια συνάρτηση κόστους με πολλαπλούς στόχους για την εκπαίδευση ενός γρήγορου συνελικτικού δικτύου (Convolutional Neural Network - CNN) ως εξαγωγέα χαρακτηριστικών εικόνας, η ...
Στην παρούσα διδακτορική διατριβή μελετήθηκαν μεθοδολογίες βαθιάς μάθησης για την ανάπτυξη αποδοτικών συστημάτων ρομποτικής όρασης, μεγαλύτερης ακρίβειας και ευρωστίας, τα οποία είναι κατάλληλα για ρομποτικές εφαρμογές. Αυτά τα συστήματα μπορούν να διευκολύνουν τα ρομπότ να αντιμετωπίζουν ένα ευρύ φάσμα προβλημάτων οπτικής ανάλυσης που είναι απαραίτητα για την αποτελεσματικότερη ερμηνεία του περιβάλλοντός τους, αυξάνοντας έτσι τον βαθμό αυτονομίας τους και την αξιοπιστία τους. Πιο συγκεκριμένα, η παρουσιαζόμενη έρευνα αφορά τα προβλήματα της εκτίμησης στάσης αντικειμένου, της δισδιάστατης εκτίμησης ανθρώπινης στάσης σώματος/σκελετού, της σημασιολογικής κατάτμησης εικόνας και της εκτίμησης βάθους. Οι κύριες συνεισφορές αυτής της διατριβής στο πρόβλημα της εκτίμησης στάσης αντικειμένου είναι δύο. Αρχικά, προτείνεται μια συνάρτηση κόστους με πολλαπλούς στόχους για την εκπαίδευση ενός γρήγορου συνελικτικού δικτύου (Convolutional Neural Network - CNN) ως εξαγωγέα χαρακτηριστικών εικόνας, η οποία βασίζεται στα μoναδιαία τετραδόνια και επιτρέπει στο συνελικτικό δίκτυο να εξάγει περιγραφείς τρισδιάστατης στάσης αντικειμένου από τους οποίους μπορούν να εκτιμηθούν με ακρίβεια οι πραγματικές τριδιάστατες στάσεις αντικειμένων. Δεύτερον, δεικνύεται ότι το πρόβλημα εκτίμησης τρισδιάστατης στάσης αντικειμένου μπορεί να λυθεί πιο εύκολα για συνθετικές εικόνες, παρά για φυσικές εικόνες. Επιπλέον, προτείνεται μια καινοτόμος μέθοδος εκτίμησης τρισδιάστατης στάσης αντικειμένου που αποτελείται από δύο στάδια και εκμεταλλεύεται αυτήν την ιδιότητα. Όσον αφορά το πρόβλημα εκτίμησης της δισδιάστατης ανθρώπινης στάσης σώματος/σκελετού από εικόνες, προτείνεται μια καινοτόμος αρχιτεκτονική συνελικτικού δικτύου, η οποία έχει ως στόχο την επίτευξη ισορροπίας μεταξύ της εκτίμησης δισδιάστατης ανθρώπινης στάσης σώματος/σκελετού με υψηλή ακρίβεια και της γρήγορης παραγωγής προβλέψεων. Τέλος, όσον αφορά τα προβλήματα της σημασιολογικής κατάτμησης εικόνας και της εκτίμησης βάθους, προτείνεται μια μέθοδος για τη βελτίωση της απόδοσης των συνελικτικών δικτύων μέσω του συνδυασμού διαφορετικών μεθοδολογιών μάθησης/εκπαίδευσης (επιβλεπόμενη και αντιπαραθετική μάθηση). Επιπροσθέτως, η προτεινόμενη μέθοδος αποτελεί μια γενική μέθοδο που μπορεί να χρησιμοποιηθεί για την βελτίωση της ακρίβειας των συνελικτικών δικτύων σε προβλήματα επιβλεπόμενης πυκνής πρόβλεψης σε εικόνες (όπου απαιτούνται εκτιμήσεις σε επίπεδο εικονοστοιχείου), απαιτώντας ελάχιστες μόνο τροποποιήσεις για την προσαρμογή της σε νέα προβλήματα πυκνής πρόβλεψης σε εικόνες.
περισσότερα
Περίληψη σε άλλη γλώσσα
This dissertation studies deep learning methodologies for facilitating the development of accurate, efficient, and robust robotic visual perception systems. Such systems can enable robots to perform a wide range of visual analysis tasks, that are necessary to interpret their environment, more effectively, thus increasing their operational autonomy and reliability. More specifically, the presented research addresses the problems of object pose estimation, 2D human pose/skeleton estimation, semantic image segmentation, and depth estimation. The main contributions to the problem of object pose estimation are two-fold. First, a multi-objective loss function for training a fast and lightweight Convolutional Neural Network (CNN) as an image feature extractor is proposed, which is based on unit quaternions and allows the CNN to learn 3D pose descriptors from which 3D object poses can be accurately estimated. Second, it is shown that the 3D object pose estimation problem is easier to solve for ...
This dissertation studies deep learning methodologies for facilitating the development of accurate, efficient, and robust robotic visual perception systems. Such systems can enable robots to perform a wide range of visual analysis tasks, that are necessary to interpret their environment, more effectively, thus increasing their operational autonomy and reliability. More specifically, the presented research addresses the problems of object pose estimation, 2D human pose/skeleton estimation, semantic image segmentation, and depth estimation. The main contributions to the problem of object pose estimation are two-fold. First, a multi-objective loss function for training a fast and lightweight Convolutional Neural Network (CNN) as an image feature extractor is proposed, which is based on unit quaternions and allows the CNN to learn 3D pose descriptors from which 3D object poses can be accurately estimated. Second, it is shown that the 3D object pose estimation problem is easier to solve for images originating from the synthetic domain rather than the real data domain. In addition, a two-step 3D object pose estimation framework that exploits this property is introduced. Regarding the problem of 2D human pose/skeleton estimation from monocular RGB images, a novel CNN architecture is proposed, with the goal to achieve balance between high 2D human pose/skeleton estimation accuracy and fast inference. Finally, regarding the problems of semantic image segmentation and depth estimation, a framework for enhancing CNN performance by combining different learning paradigms (supervised and adversarial learning) is proposed. Moreover, the proposed framework is a generic one for increasing CNN accuracy in supervised dense image prediction (where pixel-level estimations are needed), requiring only minimal modifications to accommodate new dense image prediction tasks.
περισσότερα