Περίληψη
Τα ρομπότ έχουν ενσωματωθεί όλο και περισσότερο στην καθημερινή ζωή. Οι αυτόνομες ηλεκτρικές σκούπες είναι πλέον συνηθισμένες στις κατοικίες, τα αυτοματοποιημένα συστήματα αποθηκών διαχειρίζονται αποτελεσματικά την εφοδιαστική αλυσίδα, ενώ τα αυτόνομα οχήματα και τα εναέρια μη επανδρωμένα αεροσκάφη βρίσκονται σε φάση μεγάλης κλίμακας δοκιμών σε δημόσιους χώρους. Καθώς αυτά τα συστήματα μετακινούνται πέρα από ελεγχόμενα περιβάλλοντα, η ικανότητά τους να λειτουργούν με αξιοπιστία και αυτονομία καθίσταται κρίσιμη. Η μετάβαση αυτή επιβάλλει αυξανόμενες απαιτήσεις στην αντίληψη, στη λήψη αποφάσεων και στην πλοήγηση, ιδιαίτερα σε σύνθετα και δυναμικά περιβάλλοντα. Ως αποτέλεσμα, η επίτευξη αξιόπιστου εντοπισμού θέσης παραμένει μια κεντρική πρόκληση στη ρομποτική αυτονομία. Βασική προϋπόθεση για έναν τέτοιο εντοπισμό είναι η ικανότητα εκτίμησης της θέσης του ρομπότ σε σχέση με το περιβάλλον του, χρησιμοποιώντας τους ενσωματωμένους αισθητήρες του. Αν και τα παγκόσμια δορυφορικά συστήματα πλοήγ ...
Τα ρομπότ έχουν ενσωματωθεί όλο και περισσότερο στην καθημερινή ζωή. Οι αυτόνομες ηλεκτρικές σκούπες είναι πλέον συνηθισμένες στις κατοικίες, τα αυτοματοποιημένα συστήματα αποθηκών διαχειρίζονται αποτελεσματικά την εφοδιαστική αλυσίδα, ενώ τα αυτόνομα οχήματα και τα εναέρια μη επανδρωμένα αεροσκάφη βρίσκονται σε φάση μεγάλης κλίμακας δοκιμών σε δημόσιους χώρους. Καθώς αυτά τα συστήματα μετακινούνται πέρα από ελεγχόμενα περιβάλλοντα, η ικανότητά τους να λειτουργούν με αξιοπιστία και αυτονομία καθίσταται κρίσιμη. Η μετάβαση αυτή επιβάλλει αυξανόμενες απαιτήσεις στην αντίληψη, στη λήψη αποφάσεων και στην πλοήγηση, ιδιαίτερα σε σύνθετα και δυναμικά περιβάλλοντα. Ως αποτέλεσμα, η επίτευξη αξιόπιστου εντοπισμού θέσης παραμένει μια κεντρική πρόκληση στη ρομποτική αυτονομία. Βασική προϋπόθεση για έναν τέτοιο εντοπισμό είναι η ικανότητα εκτίμησης της θέσης του ρομπότ σε σχέση με το περιβάλλον του, χρησιμοποιώντας τους ενσωματωμένους αισθητήρες του. Αν και τα παγκόσμια δορυφορικά συστήματα πλοήγησης (GNSS), όπως το GPS, προσφέρουν αξιόπιστο εντοπισμό σε πολλές υπαίθριες συνθήκες, είναι συχνά αναξιόπιστα ή απρόσιτα σε πυκνά αστικά κέντρα, δάση, εσωτερικούς χώρους ή κάτω από πυκνή βλάστηση. Εναλλακτικές λύσεις, όπως η χρήση φάρων ή άλλων υποδομών, παρουσιάζουν τους δικούς τους περιορισμούς. Συνεπώς, η αξιόπιστη πλοήγηση απαιτεί συγχώνευση δεδομένων από πολλαπλούς αισθητήρες, όπως κάμερες, αισθητήρες απεικόνισης λέιζερ και μονάδες αδρανειακής μέτρησης (IMUs), ώστε να επιτυγχάνεται λειτουργία σε πολλές διαφορετικές και δυσμενείς συνθήκες. Ένας βασικός παράγοντας για τη μακροχρόνια αυτονομία σε τέτοια σενάρια είναι η ικανότητα αναγνώρισης προηγουμένως επισκεφθέντων τοποθεσιών, βασισμένη αποκλειστικά σε οπτική πληροφορία, μία διαδικασία γνωστή ως οπτική αναγνώριση τοποθεσιών (Visual Place Recognition, VPR). Η VPR υποστηρίζει τόσο την κατασκευή χαρτών όσο και τον εντοπισμό, συσχετίζοντας τις τρέχουσες παρατηρήσεις με προηγούμενες, ακόμη και όταν αυτές διαχωρίζονται από σημαντική χωρική, χρονική ή περιβαλλοντική διαφοροποίηση. Μια σημαντική εφαρμογή της VPR είναι στα συστήματα ταυτόχρονου εντοπισμού και χαρτογράφησης (Simultaneous Localization and Mapping, SLAM), όπου χρησιμοποιείται για την ανίχνευση κλεισίματος βρόχου (Loop Closure Detection, LCD). Τα SLAM συστήματα κατασκευάζουν χάρτες σταδιακά ενώ εκτιμούν τη θέση του ρομπότ, αλλά η συσσωρευμένη απόκλιση με την πάροδο του χρόνου μειώνει την ακρίβεια. Η LCD αναγνωρίζει πότε το ρομπότ επισκέπτεται ξανά μια γνωστή τοποθεσία, επιτρέποντας στις διεργασίες των SLAM να διορθώσουν την τροχιά του και να διατηρήσει έναν συνεπή χάρτη. Σε αυτό το πλαίσιο, η VPR λειτουργεί ως μηχανισμός χωρικής διόρθωσης κατά την διαδικασία της εξερεύνησης. Πέρα από τα SLAM, η VPR αποτελεί κρίσιμο στοιχείο και σε διαδικασίες εντοπισμού, όπου ο στόχος είναι η εκτίμηση της θέσης του ρομπότ σε ένα προ-χαρτογραφημένο περιβάλλον. Σε αντίθεση με την LCD, η οποία συνήθως λειτουργεί υπό σχετικά σταθερές συνθήκες μέσα σε μία τροχιά, η VPR, όταν χρησιμοποιείται για την διαδικασία του εντοπισμού, πρέπει να αντέχει σε σημαντικές διαφοροποιήσεις εμφάνισης λόγω φωτισμού, καιρού, εποχών και δομικών αλλαγών. Αυτό απαιτεί λύσεις που να είναι τόσο ανθεκτικές όσο και κλιμακώσιμες, ικανές να γενικεύουν στον χώρο, στον χρόνο και στην οπτική γωνία, αλλά και να λειτουργούν αποδοτικά σε πλατφόρμες με περιορισμένους υπολογιστικούς πόρους. Τα συστήματα οπτικού εντοπισμού πρέπει να αντιμετωπίζουν μια ποικιλία προκλήσεων ραγματικού κόσμου που επηρεάζουν σημαντικά την απόδοσή τους. Δυναμικές περιβαλλοντικές συνθήκες, όπως φωτισμός, καιρός και εποχιακή διαφοροποίηση, μπορούν να μεταβάλλουν δραστικά την οπτική εμφάνιση τοποθεσιών, απαιτώντας αναπαραστάσεις ανθεκτικές σε τέτοιες αλλαγές. Μεταβολές στην οπτική γωνία μεταξύ διαδρομών μπορούν να οδηγήσουν σε δραστικές μετατοπίσεις της προοπτικής, καθιστώντας τη σύγκριση δύσκολη. Επιπλέον, το φαινόμενο της αντιληπτικής παραπλάνησης (perceptual aliasing), που οπτικά παρόμοιες αλλά χωρικά διαφορετικές τοποθεσίες συγχέονται, αποτελεί σημαντική πηγή ψευδών θετικών ανιχνεύσεων, ειδικά σε δομημένα ή επαναλαμβανόμενα περιβάλλοντα όπως διάδρομοι ή δάση. Καθώς το μέγεθος του περιβάλλοντος αυξάνεται, η κλιμακωσιμότητα γίνεται κρίσιμο ζήτημα, αφού οι μέθοδοι πρέπει να βρίσκουν αντιστοιχίες αποτελεσματικά από μεγάλες βάσεις δεδομένων χωρίς απώλεια ακρίβειας. Παράλληλα, η υπολογιστική αποδοτικότητα είναι απαραίτητη για εκτέλεση σε πραγματικό χρόνο σε κινητές και εναέριες πλατφόρμες με περιορισμένη επεξεργαστική ισχύ. Τέλος, μακροχρόνιες αποστολές πρέπει να αντέχουν σε δομικές αλλαγές στο περιβάλλον, όπως κατασκευές, ανάπτυξη βλάστησης ή εμπόδια, που επιβαρύνουν περαιτέρω την αξιοπιστία μεθόδων βασισμένων αποκλειστικά στην εμφάνιση. Η παρούσα διατριβή προάγει την VPR, εστιάζοντας στην ανθεκτικότητα, τη γενίκευση και την αποδοτικότητα, τόσο σε επίγειες όσο και σε εναέριες πλατφόρμες. Αυτό επιτυγχάνεται μέσα από τέσσερις συμπληρωματικές συνεισφορές, οι οποίες παρουσιάζονται σε πλαίσια που κυμαίνονται από βραχυπρόθεσμη, υψηλής ακρίβειας LCD έως μεγάλης κλίμακας, μακροχρόνιο εναέριο εντοπισμό. Αρχικά, εστιάζουμε στην LCD εντός των SLAM, όπου τα ψευδώς θετικά αποτελέσματα μπορούν να υπονομεύσουν σοβαρά τον παραγόμενο χάρτη. Η προτεινόμενη μεθοδολογία κατασκευάζει σταδιακά ένα λεξιλόγιο από παρατηρούμενα δυαδικά χαρακτηριστικά, διατηρώντας μόνο εκείνα που παραμένουν για μεγάλο χρονικό διάστημα ώστε να εξασφαλίζεται σταθερότητα και συμπαγής αναπαράσταση. Ένας γράφος συνεμφάνισης ομαδοποιεί εικόνες με κοινά έντονα χαρακτηριστικά. Ένας αλγόριθμος ανίχνευσης κοινοτήτων απομονώνει τοπικά συνεπείς τμηματικές τροχιές, βελτιώνοντας τις αντιστοιχήσεις και περιορίζοντας την αντιληπτική παραπλάνηση. Ένα φίλτρο χρονικής ανίχνευσης κορυφών επικυρώνει τις υποθέσεις κλεισίματος βρόχου αναλύοντας την εξέλιξη των βαθμολογιών ομοιότητας σε διαδοχικά καρέ. Συνολικά, τα στοιχεία αυτά επιτυγχάνουν τέλεια ακρίβεια με υψηλή ανάκληση, μειώνοντας παράλληλα το μέγεθος του λεξιλογίου κατά μία τάξη μεγέθους σε σχέση με άλλες παρόμοιες μεθόδους, καθιστώντας το κατάλληλο για πλατφόρμες με περιορισμένους πόρους. Στη συνέχεια, ασχολούμαστε με μεθόδους αναπαράστασης βασισμένες σε ακολουθίες παρατηρήσεων για τον μακροχρόνιο εντοπισμό θέσης. Αντί να τροποποιούμε ή να επανεκπαιδεύουμε τον κωδικοποιητή εικόνων, προτείνουμε ένα πλαίσιο ανεξάρτητο από τον περιγραφέα, το οποίο επαναχαρτογραφεί τις βαθμολογίες ομοιότητας μεταξύ ακολουθιών εικόνων σε έναν κανονικοποιημένο χώρο αποστάσεων. Αυτή η αναπαράσταση φιλτράρει τον θόρυβο που σχετίζεται με τις αλλαγές εμφάνισης, ενώ αναδεικνύει τη δομική συνέπεια μεταξύ διαδρομών. Εκμεταλλευόμενο τη χρονική συνέχεια, το σύστημα βελτιώνει την ανθεκτικότητα υπό ακραίες περιβαλλοντικές αλλαγές και επιτυγχάνει ανταγωνιστική απόδοση με μεθόδους αιχμής, χωρίς εξάρτηση από συγκεκριμένο περιγραφέα. Έπειτα, επικεντρωνόμαστε στην εναέρια VPR, έναν τομέα όπου τα μοντέλα που εκπαιδεύονται σε επίγειες εικόνες γενικεύουν ανεπαρκώς λόγω των έντονων διαφορών της φύσης των δεδομένων, της ασάφειας προσανατολισμού και των περιορισμένων δομικών ενδείξεων. Για τον σκοπό αυτό, εισάγουμε το LASED, ένα μεγάλο σύνολο δεδομένων με περίπου ένα εκατομμύριο εναέριες εικόνες, συλλεγμένες σε διάστημα δεκαετίας, σχεδιασμένο ώστε να αποτυπώνει γεωγραφική ποικιλία και μακροχρόνια μεταβλητότητα. Πάνω σε αυτή τη βάση, αντιμετωπίζουμε την ασάφεια προσανατολισμού εφαρμόζοντας περιστρεφόμενα συνελικτικά δίκτυα (steerable CNNs), που ενσωματώνουν ιδιότητες ισοδυναμίας περιστροφής απευθείας στην αρχιτεκτονική. Αυτός ο συνδυασμός δομημένων δεδομένων και εξειδικευμένων μοντέλων βελτιώνει ουσιαστικά την ανθεκτικότητα σε αλλαγές προσανατολισμού και εποχής, προάγοντας την απόδοση της εναέριας VPR. Τέλος, παρουσιάζουμε την πρακτική επίδραση της εναέριας VPR σε ένα πραγματικό σενάριο εντοπισμού ενός μη επανδρωμένου ιπτάμενου οχήματος σε περιβάλλον ανοιχτού ορυχείου. Το συγκεκριμένο πλαίσιο περιλαμβάνει μεγάλες μεταβολές οπτικής γωνίας, εποχιακές αλλαγές και δομικές μετατροπές, αντανακλώντας τις προκλήσεις δυναμικών βιομηχανικών περιοχών με περιορισμένη υπηρεσία GPS. Τα μοντέλα που εκπαιδεύτηκαν στο LASED υπερέχουν σταθερά έναντι εκείνων που εκπαιδεύτηκαν σε μικρότερα εναέρια σύνολα δεδομένων, υπογραμμίζοντας τη σημασία της κλίμακας και της χρονικής ποικιλίας για τη γενίκευση τους. Οι περιστρεφόμενες συνελικτικές αρχιτεκτονικές βελτιώνουν περαιτέρω την ανθεκτικότητα σε αλλαγές του προσανατολισμού. Τα αποτελέσματα αυτά επιβεβαιώνουν ότι ο κατάλληλος σχεδιασμός συνόλων δεδομένων και οι αρχιτεκτονικές επιλογές καθιστούν εφικτό τον αξιόπιστο εναέριο εντοπισμό πέρα από τα προηγουμένως δοκιμασμένα σύνολα αξιολόγησης επιδόσεων. Σε όλα τα παραπάνω σενάρια, η VPR λειτουργεί ως κρίσιμος σύνδεσμος μεταξύ τρέχουσας αντίληψης και προηγούμενης εμπειρίας, υποστηρίζοντας τόσο την κατασκευή χαρτών μέσω της LCD όσο και τον εντοπισμό θέσης εντός υπαρχόντων χαρτών. Οι συνεισφορές της παρούσας διατριβής ενισχύουν την VPR και στους δύο αυτούς ρόλους: εξασφαλίζοντας ακρίβεια στο κλείσιμο βρόχων στα SLAM, βελτιώνοντας την ανθεκτικότητα στον μακροχρόνιο εντοπισμό θέσης μέσω αναπαραστάσεων βασισμένων σε ακολουθίες, διευκολύνοντας τη γενίκευση σε εναέριους τομείς με ένα μεγάλο σύνολο δεδομένων και τη χρήση περιστρεφόμενων συνελικτικών δικτύων, καθώς και επικυρώνοντας αυτές τις προόδους σε πραγματική αποστολή ενός μη επανδρωμένου ιπτάμενου οχήματος. Συνολικά, η εργασία προάγει την VPR ως αξιόπιστη βάση για την αυτόνομη πλοήγηση σε επίγειες και εναέριες πλατφόρμες, γεφυρώνοντας το χάσμα μεταξύ ελεγχόμενων δοκιμών και των προκλήσεων της πραγματικής λειτουργίας.
περισσότερα
Περίληψη σε άλλη γλώσσα
Robots have increasingly become integrated into everyday life. Autonomous vacuum cleaners are common in households, automated warehouse systems efficiently manage logistics, and self-driving vehicles and aerial drones are undergoing large-scale trials in public spaces. As these systems move beyond controlled environments, their ability to operate reliably and autonomously becomes critical. This shift places growing demands on perception, decision-making, and navigation, particularly in complex and dynamic settings. As a result, achieving robust localization remains a central challenge in autonomous robotics. A core requirement for such localization is the ability to estimate a robot's position relative to its environment using onboard sensors. While global navigation satellite systems (GNSS), such as GPS, offer reliable localization in many outdoor scenarios, they are often unreliable or unavailable in dense urban areas, forests, indoor spaces, or under heavy canopy. Alternative soluti ...
Robots have increasingly become integrated into everyday life. Autonomous vacuum cleaners are common in households, automated warehouse systems efficiently manage logistics, and self-driving vehicles and aerial drones are undergoing large-scale trials in public spaces. As these systems move beyond controlled environments, their ability to operate reliably and autonomously becomes critical. This shift places growing demands on perception, decision-making, and navigation, particularly in complex and dynamic settings. As a result, achieving robust localization remains a central challenge in autonomous robotics. A core requirement for such localization is the ability to estimate a robot's position relative to its environment using onboard sensors. While global navigation satellite systems (GNSS), such as GPS, offer reliable localization in many outdoor scenarios, they are often unreliable or unavailable in dense urban areas, forests, indoor spaces, or under heavy canopy. Alternative solutions, such as beacon or infrastructure-based localization, come with their own limitations. Consequently, robust positioning requires sensor fusion from onboard modalities such as cameras, lidars, and inertial measurement units to operate across diverse and degraded conditions. A key enabler of long-term autonomy in such scenarios is the ability to recognize previously visited locations based solely on visual input, a task known as Visual Place Recognition (VPR). VPR supports both map construction and localization by associating current observations with past ones, even when separated by significant spatial, temporal, or environmental variation. One important application of VPR is within simultaneous localization and mapping (SLAM), where it is used to perform loop closure detection (LCD). SLAM systems construct maps incrementally while estimating the robot's pose, but accumulated drift over time degrades accuracy. LCD identifies when the robot revisits a known place, allowing the SLAM backend to correct its trajectory and maintain a consistent map. In this context, VPR serves as a mechanism for spatial correction during exploration. Beyond SLAM, VPR is also a critical component within localization pipelines, where the goal is to estimate the robot's position within a pre-mapped environment. Unlike LCD, which typically operates under relatively stable conditions within a single trajectory, VPR for localization must handle significant appearance variation due to lighting, weather, seasons, and structural changes. This requires solutions that are both robust and scalable, capable of generalizing across time, space, and viewpoint, as well as operating efficiently on resource-constrained platforms. Visual localization systems must contend with a variety of real-world challenges that significantly impact performance. Environmental dynamics such as lighting, weather, and seasonal variation can dramatically alter the visual appearance of places, requiring representations that are robust to such changes. Viewpoint variation among traversals, can lead to drastic shifts in perspective that make direct matching difficult. Additionally, perceptual aliasing, where visually similar but spatially distinct locations are mistaken for one another, poses a major source of false positives, especially in structured or repetitive settings like corridors or forests. As the size of the environment increases, scalability becomes a critical issue, since methods must retrieve matches efficiently from large databases without sacrificing accuracy. At the same time, computational efficiency is essential for real-time deployment on mobile and aerial platforms with limited processing power. Finally, long-term deployments must cope with structural changes in the environment over time, such as construction, vegetation growth, or occlusions, which further challenge the reliability of purely appearance-based methods. This dissertation advances visual place recognition (VPR) by addressing robustness, generalization, and efficiency across both ground and aerial platforms. It does so through four complementary contributions, demonstrated in contexts ranging from short-term, high-precision LCD to large-scale, long-term aerial localization. We first address LCD in SLAM, where false positives can severely compromise the generated map. The proposed pipeline incrementally constructs a vocabulary from tracked binary features, retaining only long-lived tracks to ensure stability and compactness. An online co-visibility graph groups images by shared long-lived features. A community detection algorithm (CDA) then isolates locally consistent trajectory segments, improving match relevance and limiting aliasing. A temporal peak-trace filter validates loop hypotheses by analyzing the evolution of similarity scores across successive frames. Together, these components achieve perfect precision with high recall while reducing the vocabulary footprint by an order of magnitude compared to other incremental bag-of-words (BoW) methods, enabling efficient deployment on resource-constrained platforms. We next address sequence-based representation methods for VPR in long-term localization. Rather than modifying or retraining image encoder, we propose a descriptor-agnostic framework that remaps similarity scores between image sequences into a normalized distance-space domain. This representation filters out appearance-related noise while highlighting structural consistency across traversals. By exploiting temporal continuity, the method improves robustness under severe environmental changes and achieves competitive performance with state-of-the-art sequence-based representation methods, without dependence on any particular descriptor. We then address aerial VPR, a domain where models trained on ground imagery generalize poorly due to severe domain shift, rotational ambiguity, and sparse structural cues. To that end, we introduce LASED, a large-scale dataset of approximately one million aerial images collected over a decade, designed to capture geographic diversity and long-term variation. Building on this foundation, we mitigate rotational ambiguity by employing steerable convolutional networks that encode rotation equivariance directly into the architecture. This combination of structured data and specialized models substantially improves robustness to orientation changes and seasonal variation, advancing the state-of-the-art in aerial VPR. Finally, we demonstrate the practical impact of aerial VPR in a real-world deployment for unmanned aerial vehicle (UAV) localization in an open-pit mining environment. This setting involves large viewpoint changes, seasonal variation, and structural modifications, reflecting the challenges of dynamic, GPS-degraded industrial sites. Models trained on LASED consistently outperform those trained on smaller aerial datasets, highlighting the importance of scale and temporal diversity for generalization. Rotation-equivariant architectures further improve robustness to orientation changes. These results validate that curated dataset design and architectural choices enable reliable aerial localization beyond controlled benchmarks. Across these scenarios, VPR serves as the critical link between current perception and prior experience, supporting both map building through LCD and robot localization within existing maps. The contributions of this dissertation strengthen VPR in both roles: ensuring precision in SLAM loop closures, enhancing robustness for long-term localization through sequence-based representations, enabling generalization in aerial domains with a large-scale dataset, and validating these advances in a real-world UAV deployment. Taken together, the work advances VPR as a reliable foundation for autonomous navigation across ground and aerial platforms, bridging the gap between controlled benchmarks and the complexities of real-world operation.
περισσότερα