Περίληψη
Η κατανόηση της σκηνής, ο εντοπισμός και η χαρτογράφηση, διαδραματίζουν κρίσιμο ρόλο στην όραση υπολογιστών, τη ρομποτική και την τοπογραφία, παρέχοντας πολύτιμη γνώση μέσω ενός τεράστιου και αυξανόμενου αριθμού μεθοδολογιών και εφαρμογών. Ωστόσο, αν και η βιβλιογραφία ανθεί με σχετικές μελέτες σε αστικά και εσωτερικά περιβάλλοντα, πολύ λιγότερες μελέτες επικεντρώνονται σε μη δομημένα περιβάλλοντα. Ο κύριος στόχος αυτής της διατριβής είναι να σχεδιάσει και να αναπτύξει ένα πλαίσιο οπτικού εντοπισμού βασισμένο στη βαθιά μάθηση που στοχεύει στην ενίσχυση της κατανόησης της σκηνής και των δυνατοτήτων της αυτόνομης πλοήγησης σε απαιτητικές αδόμητες σκηνές και στην ανάπτυξη μιας μεθοδολογίας εντοπισμού θέσης με υψηλή ακρίβεια, σε περιβάλλοντα χωρίς GNSS. Η διατριβή μπορεί να χωριστεί σε πέντε διαφορετικά μέρη: (α) σχεδιασμός συνόλων δεδομένων εκπαίδευσης και αξιολόγησης, (β) υλοποίηση και βελτίωση νευρωνικού δικτύου ανίχνευσης και περιγραφής βασικών σημείων για μη δομημένα περιβάλλοντα (γ) ...
Η κατανόηση της σκηνής, ο εντοπισμός και η χαρτογράφηση, διαδραματίζουν κρίσιμο ρόλο στην όραση υπολογιστών, τη ρομποτική και την τοπογραφία, παρέχοντας πολύτιμη γνώση μέσω ενός τεράστιου και αυξανόμενου αριθμού μεθοδολογιών και εφαρμογών. Ωστόσο, αν και η βιβλιογραφία ανθεί με σχετικές μελέτες σε αστικά και εσωτερικά περιβάλλοντα, πολύ λιγότερες μελέτες επικεντρώνονται σε μη δομημένα περιβάλλοντα. Ο κύριος στόχος αυτής της διατριβής είναι να σχεδιάσει και να αναπτύξει ένα πλαίσιο οπτικού εντοπισμού βασισμένο στη βαθιά μάθηση που στοχεύει στην ενίσχυση της κατανόησης της σκηνής και των δυνατοτήτων της αυτόνομης πλοήγησης σε απαιτητικές αδόμητες σκηνές και στην ανάπτυξη μιας μεθοδολογίας εντοπισμού θέσης με υψηλή ακρίβεια, σε περιβάλλοντα χωρίς GNSS. Η διατριβή μπορεί να χωριστεί σε πέντε διαφορετικά μέρη: (α) σχεδιασμός συνόλων δεδομένων εκπαίδευσης και αξιολόγησης, (β) υλοποίηση και βελτίωση νευρωνικού δικτύου ανίχνευσης και περιγραφής βασικών σημείων για μη δομημένα περιβάλλοντα (γ) υλοποίηση και ανάπτυξη νευρωνικού δικτύου για οπτικό εντοπισμό επικεντρωμένο σε αδόμητα περιβάλλοντα και ενσωμάτωση του εκπαιδευμένου μοντέλου σε σύστημα SLAM (Simultaneous localization and Mapping) ως μονάδα εξαγωγής χαρακτηριστικών (δ) ανάπτυξη αρχιτεκτονικής κωδικοποιητή-αποκωδικοποιητή για σεληνιακή τμηματοποίηση εδάφους (ε) ανάπτυξη μεθοδολογίας για ακριβή εντοπισμό και χαρτογράφηση για περιβάλλοντα χωρίς GNSS.Όσον αφορά το πρώτο μέρος της διατριβής, σχεδιάστηκαν και δημιουργήθηκαν δύο σύνολα δεδομένων για την εκπαίδευση και την αξιολόγηση ανιχνευτών και περιγραφέων χαρακτηριστικών σημείων (Κeypoint detectors and descriptors). Το σύνολο δεδομένων εκπαίδευσης περιλαμβάνει 48 000 εικόνες FPV (First Person View) με μεγάλο εύρος παραλλαγών στα τοπία, συμπεριλαμβανομένων εικόνων από τη Γη, τη Σελήνη και τον Άρη, ενώ το σύνολο δεδομένων αξιολόγησης περιλαμβάνει περίπου 120 ακολουθίες πλανητικών σκηνών όπου κάθε ακολουθία περιέχει την αρχική εικόνα και πέντε διαφορετικές παραγόμενες αναπαραστάσεις της ίδιας σκηνής όσον αφορά τον φωτισμό και την γωνία θέασης.Στο δεύτερο μέρος αυτής της διατριβής, εφαρμόστηκε και τροποποιήθηκε μια αυτο-επιβλεπόμενη αρχιτεκτονική νευρωνικών δικτύων που ονομάζεται SuperPoint, διερευνώντας την αποτελεσματικότητά της στην ανίχνευση και περιγραφή χαρακτηριστικών σημείων όταν εφαρμόζεται σε μη δομημένες και πλανητικές σκηνές. Τρία διαφορετικά μοντέλα SuperPoint δημιουργήθηκαν: (α) ένα πρωτότυπο μοντέλο SuperPoint εκπαιδευμένο χωρίς ενίσχυση μάθησης (transfer learning), (β) ένα πρωτότυπο μοντέλο SuperPoint εκπαιδευμένο με χρήση ενίσχυση μάθησης (transfer learning), (γ) ένα βελτιστοποιημένο μοντέλο SuperPoint εκπαιδευμένο χωρίς ενίσχυση μάθησης (transfer learning). Ο πειραματισμός απέδειξε ότι το βελτιστοποιημένο μοντέλο SuperPoint παρέχει ανώτερη απόδοση, σε σύγκριση με τα αρχικά μοντέλα SuperPoint αλλά και άλλους παραδοσιακούς ανιχνευτές και περιγραφείς χαρακτηριστικών σημείων. Αναφορικά με το τρίτο μέρος της διατριβής, αναπτύχθηκε μια αρχιτεκτονική βαθιάς μάθησης πολλαπλών εργασιών για ανίχνευση και περιγραφή χαρακτηριστικών σημείων, εστιασμένη σε αδόμητες και πλανητικές σκηνές με μειωμένα χαρακτηριστικά και χαμηλό ή μεταβαλλόμενο φωτισμό, ενώ οι διαδικασίες εκπαίδευσης και αξιολόγησης πραγματοποιήθηκαν χρησιμοποιώντας τα προτεινόμενα σύνολα δεδομένων. Επιπλέον, το εκπαιδευμένο μοντέλο ενσωματώθηκε σε ένα οπτικό σύστημα SLAM (Simultaneous Localization and Mapping) ως μονάδα εξαγωγής χαρακτηριστικών και εφαρμόστηκε σε δύο μη δομημένες περιοχές με μειωμένα χαρακτηριστικά. Όσον αφορά τα αποτελέσματα, η προτεινόμενη αρχιτεκτονική παρέχει αυξημένη ακρίβεια ως προς την περιγραφή των σημειακών χαρακτηριστικών, ξεπερνώντας διαδεδομένους παραδοσιακούς αλγόριθμους ενώ το προτεινόμενο SLAM πέτυχε αυξημένα αποτελέσματα σε περιοχές με μέτριο και χαμηλό φωτισμό σε σύγκριση με τον αλγόριθμο ORB-SLAM2.Στο τέταρτο μέρος της διατριβής, προτείνεται μια ελαφριά αρχιτεκτονική νευρωνικού δικτύου κωδικοποιητή-αποκωδικοποιητή (NN) για τμηματοποίηση εδάφους στη σεληνιακή επιφάνεια. Η προτεινόμενη αρχιτεκτονική αποτελείται από ένα τροποποιημένο MobilenetV2 ως κωδικοποιητή και ένα ελαφρύ αποκωδικοποιητή U-net, ενώ οι διαδικασίες εκπαίδευσης και αξιολόγησης διεξήχθησαν χρησιμοποιώντας ένα δημοσίως διαθέσιμο συνθετικό σύνολο δεδομένων με εικόνες σεληνιακού τοπίου. Το προτεινόμενο μοντέλο παρέχει ισχυρά αποτελέσματα τμηματοποίησης, επιτυγχάνοντας παρόμοια ακρίβεια με την πρωτότυπη αρχιτεκτονική U-net αλλά και άλλες εναλλακτικές αρχιτεκτονικές με βάση το U-net που είναι 110 - 140 φορές μεγαλύτερες από την προτεινόμενη αρχιτεκτονική. Αυτή η μελέτη, στοχεύει να συμβάλει στην τμηματοποίηση του εδάφους της Σελήνης χρησιμοποιώντας τεχνικές βαθιάς μάθησης, ενώ αναδεικνύει σημαντικές δυνατότητες στην αυτόνομη σεληνιακή πλοήγηση διασφαλίζοντας μια ασφαλέστερη και ομαλή πλοήγηση στη Σελήνη. Σχετικά με το πέμπτο μέρος της διατριβής, αναπτύχθηκε μια μέθοδος εντοπισμού υψηλής ακρίβειας, με στόχο τον εντοπισμό ειδικών στόχων και χαρακτηριστικών σημείων της σκηνής, παρέχοντας τις τοπικές τους συντεταγμένες στον τρισδιάστατο χώρο με υψηλό επίπεδο ακρίβειας. Αρχικά, οι ειδικοί στόχοι τοποθετούνται στη σκηνή όπου ένας από αυτούς χρησιμοποιείται ως στόχος προέλευσης (origin), ενώ οι υπόλοιποι στόχοι αντιπροσωπεύουν χαρακτηριστικά εδάφους. Στη συνέχεια, ο προτεινόμενος αλγόριθμος SLAM χρησιμοποιώντας μια κάμερα RGB-Depth χαρτογραφεί την επιθυμητή περιοχή, ενώ σε συνδυασμό με γεωμετρικούς μετασχηματισμούς, τεχνικές ακριβούς εντοπισμού και βελτιστοποίησης, η παρούσα μεθοδολογία εκτιμά τις συντεταγμένες των στόχων και ενός νέφος σημείων που προσεγγίζει τη δομή του περιβάλλοντος. Είναι σαφές ότι η χρήση της βαθιάς μάθησης σε μη δομημένα και πλανητικά περιβάλλοντα όσον αφορά την αναγνώριση σκηνής, τον εντοπισμό και τη χαρτογράφηση παρέχει σημαντικές δυνατότητες για μελλοντικές εφαρμογές, ενισχύοντας κρίσιμα θέματα όπως η αυτόνομη πλοήγηση σε απαιτητικά και άγνωστα περιβάλλοντα. Αυτή η διατριβή φιλοδοξεί να ενθαρρύνει τη διερεύνηση και την ανάπτυξη μοντέλων και συνόλων δεδομένων τεχνητής νοημοσύνης, εστιασμένων σε αποστολές πλανητικής εξερεύνησης και ιδιαίτερα στην κατανόηση σκηνών υψηλού και χαμηλού επιπέδου χρησιμοποιώντας υπολογιστικά αποδοτικό εξοπλισμό και μεθόδους, μειώνοντας το οικονομικό και ενεργειακό κόστος των ρομποτικών συστημάτων.
περισσότερα
Περίληψη σε άλλη γλώσσα
Scene understanding, localization and mapping, play a crucial role in computer vision, robotics and geomatics, providing valuable knowledge through a vast and increasing number of methodologies and applications. However, although the literature flourishes with related studies in urban and indoor environments, far fewer studies concentrate in unstructured environments. The main goal of this dissertation is to design and develop a visual localization framework based on deep learning that aims to enhance scene understanding and the potential of autonomous navigation in challenging unstructured scenes and develop a precise positioning methodology, for characteristic point localization in GNSS-denied environments. The dissertation can be divided in five different parts: (a) design of the training and evaluation datasets, (b) implementation and improvement of a keypoint detection and description neural network for unstructured environments (c) implementation and development of a lightweight ...
Scene understanding, localization and mapping, play a crucial role in computer vision, robotics and geomatics, providing valuable knowledge through a vast and increasing number of methodologies and applications. However, although the literature flourishes with related studies in urban and indoor environments, far fewer studies concentrate in unstructured environments. The main goal of this dissertation is to design and develop a visual localization framework based on deep learning that aims to enhance scene understanding and the potential of autonomous navigation in challenging unstructured scenes and develop a precise positioning methodology, for characteristic point localization in GNSS-denied environments. The dissertation can be divided in five different parts: (a) design of the training and evaluation datasets, (b) implementation and improvement of a keypoint detection and description neural network for unstructured environments (c) implementation and development of a lightweight neural network for visual localization focused on unstructured environments and integration of the trained model in a SLAM (Simultaneous Localization and Mapping) system as a feature extraction module (d) development of a lightweight encoder-decoder architecture for lunar ground segmentation (e) development of a precise positioning and mapping alternative for GNSS-denied environments. Regarding the first part of the dissertation, two datasets were designed and created for the training and evaluation of keypoint detectors and descriptors. The training dataset includes 48 000 of FPV (First-Person-View) images with wide range of variations in landscapes, including images from Earth, Moon and Mars while the evaluation dataset includes about 120 sequences of planetary-(like) scenes where each sequence contains the original image and five different generated representations of the same scene, in terms of illumination and viewpoint. In the second part of this dissertation, a self-supervised neural network architecture called SuperPoint was implemented and modified, investigating its efficiency in keypoint detection and description applied in unstructured and planetary scenes. Three different SuperPoint models were produced: (a) an original SuperPoint model trained from scratch, (b) an original fine-tuned SuperPoint model, (c) an optimized SuperPoint model trained from scratch. The experimentation proved that the optimized SuperPoint model provides superior performance, compared with the original SuperPoint models and handcrafted keypoint detectors and descriptors. Concerning the third part of the dissertation, a multi-task deep learning architecture was developed for keypoint detection and description, focused on poor-featured unstructured and planetary scenes with low or changing illumination while the training and evaluation processes were conducted using the proposed datasets. Moreover, the trained model was integrated in a visual SLAM (Simultaneous Localization and Maping) system as a feature extraction module, and tested in two feature-poor unstructured areas. Regarding the results, the proposed architecture provides increased accuracy in terms of keypoint description, outperforming well-known handcrafted algorithms while the proposed SLAM achieved superior results in areas with medium and low illumination compared with the ORB-SLAM2 algorithm. In the fourth part of the dissertation, a lightweight encoder-decoder neural network (NN) architecture is proposed for rover-based ground segmentation on the lunar surface. The proposed architecture is composed by a modified MobilenetV2 as encoder and a lightweight U-net decoder while the training and evaluation processes were conducted using a publicly available synthetic dataset with lunar landscape images. The proposed model provides robust segmentation results, achieving similar accuracy with the original U-net and U-net-based architectures which are 110 - 140 times larger than the proposed architecture. This study, aims to contribute in lunar ground segmentation utilizing deep learning techniques, while it proves a significant potential in autonomous lunar navigation ensuring a safer and smoother navigation on the moon. Regarding the fifth part of the dissertation, a precise positioning alternative was developed aiming to localize fiducial markers and characteristic points of the scene, providing their local coordinates in 3D space under a high level of accuracy. At first, the fiducial markers are placed in the scene where one of them is used as the origin marker, while the target markers represent the characteristic points or features. Subsequently, the proposed SLAM algorithm enables an RGB-Depth camera to map the desired area and localize itself in an unknown and challenging environment, while in combination with geometrical transformations, localization and optimization techniques, the present methodology estimates the coordinates of target markers and an arbitrary point cloud which approximates the structure of the environment. It is clear that the use of deep learning in unstructured and planetary environments in terms of scene recognition, localization and mapping provides a significant potential for the future applications, reinforcing crucial topics such as autonomous navigation in hazardous and unknown environments. This dissertation aspires to encourage the investigation and development of AI models and datasets, focused on planetary exploration missions and especially on high and low-level scene understanding using computationally efficient equipment and methods, reducing the economic and energy costs of robotic systems.
περισσότερα