Εκμάθηση βάθους από διδιάστατες εικόνες

Περίληψη

Η Μονοσκοπική Εκτίμηση Βάθους (Monocular Depth Estimation, MDE) στοχεύει στην εξαγωγή ενός πυκνού χάρτη βάθους από μία μόνο εικόνα. Επειδή μια τρισδιάστατη σκηνή υποβαθμίζεται σε διδιάστατη προβολή, η αντιστροφή είναι θεμελιωδώς κακώς τεθειμένο πρόβλημα, καθώς πολλαπλές γεωμετρίες μπορούν να είναι συμβατές με τα ίδια δεδομένα εικόνας. Ως αποτέλεσμα, υψηλές επιδόσεις σε benchmarks μπορούν να συνυπάρχουν με λύσεις που είναι δύσκολο να ελεγχθούν ως προς τις ενδείξεις βάθους στις οποίες βασίζονται, την εσωτερική οργάνωση των υπολογισμών τους και τα σημεία όπου συγκεντρώνονται οι αστοχίες. Η παρούσα διατριβή προσεγγίζει τη MDE μέσα από τρεις συμπληρωματικούς πυλώνες: ερμηνευσιμότητα, επίδοση και επεξηγησιμότητα. Στον πρώτο πυλώνα προτείνεται ο μηχανισμός προσοχής SVDA, εμπνευσμένος από την αποσύνθεση σε ιδιάζουσες τιμές, ο οποίος παραγοντοποιεί την προσοχή σε κατευθυντική ευθυγράμμιση και φασματική έμφαση, επιτρέποντας τη μελέτη της δομής της μέσω ποσοτικών δεικτών. Στον δεύτερο πυλώνα εξετ ...
περισσότερα

Περίληψη σε άλλη γλώσσα

Monocular Depth Estimation (MDE) aims to infer a dense depth map from a single image. Because a three-dimensional scene is reduced to a two-dimensional projection, the inverse mapping is fundamentally ill-posed, since multiple geometries can be consistent with the same image evidence. As a result, high benchmark performance may coexist with solutions that are difficult to audit with respect to the depth cues on which the model relies, the internal organization of its computations, and the regions where failures concentrate. This dissertation approaches MDE through three complementary pillars: interpretability, performance, and explainability. Under the first pillar, it introduces the SVDA attention mechanism, inspired by singular value decomposition, which factorizes attention into directional alignment and spectral emphasis, enabling the study of its structure through quantitative indicators. Under the second pillar, it investigates a segmentation-based approach in which compact class ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/61501
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/61501
ND
61501
Εναλλακτικός τίτλος
Learning depth from two-dimensional images
Συγγραφέας
Αραμπατζάκης, Βασίλειος (Πατρώνυμο: Ιωάννης)
Ημερομηνία
03/2026
Ίδρυμα
Δημοκρίτειο Πανεπιστήμιο Θράκης (ΔΠΘ). Σχολή Πολυτεχνική. Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Ηλεκτρονικής και Τεχνολογίας Συστημάτων Πληροφορικής. Εργαστήριο Ηλεκτρικών Κυκλωμάτων, Επεξεργασίας Σήματος και Εικόνας
Εξεταστική επιτροπή
Παπαμάρκος Νικόλαος
Μητιανούδης Νικόλαος
Παυλίδης Γεώργιος
Πρατικάκης Ιωάννης
Θεοδωρακόπουλος Ηλίας
Μπούταλης Ιωάννης
Νίκου Χριστόφορος
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και ΤεχνολογίαΕπιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Τεχνολογία μέσων
Λέξεις-κλειδιά
Μονοσκοπική Εκτίμηση Βάθους; Ερμηνευσιμότητα; Επεξηγησιμότητα; Μετασχηματιστές Όρασης; Μηχανισμοί Προσοχής
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Άλλα στοιχεία
εικ., πιν., σχημ., γραφ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.