Περίληψη
Αυτή η διατριβή επικεντρώνεται στο πεδίο της κατάτμησης εικόνας μέσω της μελέτης, ανάπτυξης και εφαρμογής αρχιτεκτονικών Βαθιάς Μάθησης (Deep Learning) στους σημαντικότερους και ευρύτερα εφαρμοζόμενους τομείς: τη σημασιολογική τμηματοποίηση, τη δυαδικοποίηση εγγράφων και την κατάτμηση στιγμιότυπου (instance segmentation). Ιδιαίτερη έμφαση δίνεται σε αποδοτικές, χαμηλής πολυπλοκότητας αρχιτεκτονικές που επιτυγχάνουν ισορροπία μεταξύ ακρίβειας κατάτμησης και υπολογιστικής αποδοτικότητας — ένας συνδυασμός κρίσιμος για πρακτικές εφαρμογές στον πραγματικό κόσμο. Το έργο δομείται σε τέσσερα κεφάλαια, ένα αφιερωμένο στο γενικό πρόβλημα της κατάτμησης εικόνας και ένα για κάθε επιμέρους ερευνητικό πεδίο. Στο Κεφάλαιο 1 τίθενται τα θεμέλια της διατριβής μέσω της διερεύνησης της κατάτμησης εικόνας ως ευρύτερου ερευνητικού τομέα και της παρουσίασης των κύριων υποπεδίων του, όπως η ανίχνευση αντικειμένων, η σημασιολογική κατάτμηση και η κατάτμηση στιγμιότυπου. Η δυαδικοποίηση εγγράφων αναφέρεται επ ...
Αυτή η διατριβή επικεντρώνεται στο πεδίο της κατάτμησης εικόνας μέσω της μελέτης, ανάπτυξης και εφαρμογής αρχιτεκτονικών Βαθιάς Μάθησης (Deep Learning) στους σημαντικότερους και ευρύτερα εφαρμοζόμενους τομείς: τη σημασιολογική τμηματοποίηση, τη δυαδικοποίηση εγγράφων και την κατάτμηση στιγμιότυπου (instance segmentation). Ιδιαίτερη έμφαση δίνεται σε αποδοτικές, χαμηλής πολυπλοκότητας αρχιτεκτονικές που επιτυγχάνουν ισορροπία μεταξύ ακρίβειας κατάτμησης και υπολογιστικής αποδοτικότητας — ένας συνδυασμός κρίσιμος για πρακτικές εφαρμογές στον πραγματικό κόσμο. Το έργο δομείται σε τέσσερα κεφάλαια, ένα αφιερωμένο στο γενικό πρόβλημα της κατάτμησης εικόνας και ένα για κάθε επιμέρους ερευνητικό πεδίο. Στο Κεφάλαιο 1 τίθενται τα θεμέλια της διατριβής μέσω της διερεύνησης της κατάτμησης εικόνας ως ευρύτερου ερευνητικού τομέα και της παρουσίασης των κύριων υποπεδίων του, όπως η ανίχνευση αντικειμένων, η σημασιολογική κατάτμηση και η κατάτμηση στιγμιότυπου. Η δυαδικοποίηση εγγράφων αναφέρεται επίσης ως μια ιδιαίτερη περίπτωση σημασιολογικής κατάτμησης. Μελετώνται οι στόχοι και οι προκλήσεις κάθε περιοχής, καθώς και οι μέθοδοι αξιολόγησης που χρησιμοποιούνται κάθε φορά. Το κεφάλαιο αναφέρεται επίσης στην κατηγοριοποίηση εικόνων, καθώς η προεκπαίδευση αρχιτεκτονικών πάνω στο πρόβλημα της κατηγοριοποίησης αποτελεί θεμελιώδες βήμα στη συνολική διαδικασία της κατάτμησης. Ο σκοπός του κεφαλαίου είναι να λειτουργήσει ως θεωρητική και πρακτική εισαγωγή, αναδεικνύοντας τη σημασία της κατάτμησης εικόνας στις σύγχρονες αυτοματοποιημένες εφαρμογές του πραγματικού κόσμου. Στο Κεφάλαιο 2 εξετάζεται το απαιτητικό πρόβλημα της δυαδικοποίησης εγγράφων, ως κρίσιμο βήμα στη μετατροπή ενός εγγράφου, έντυπου ή χειρόγραφου, στον ψηφιακό κόσμο. Πραγματοποιείται μια αναδρομική ανασκόπηση των δημοφιλών μεθόδων του παρελθόντος, με έμφαση στα χαρακτηριστικά που τους επέτρεψαν να κυριαρχήσουν στο πεδίο για δεκαετίες πριν την έλευση της Βαθιάς Μάθησης. Παράλληλα, εξετάζονται οι υπάρχουσες σύγχρονες συνελικτικές μέθοδοι αιχμής (state-of-the-art) και παρουσιάζεται μια κορυφαία συνελικτική αρχιτεκτονική που συνδυάζει σύγχρονα χαρακτηριστικά, όπως μπλοκ πολλαπλών αναλύσεων και μηχανισμούς οπτικής προσοχής. Η μέθοδος συγκρίνεται ως προς την ακρίβεια, την ανθεκτικότητα και την ταχύτητα με τις σύγχρονες μεθόδους αιχμής στα σύνολα δεδομένων (H)DIBCO, τα οποία αποτελούν πλέον πρότυπο αξιολόγησης για τη δυαδικοποίηση εγγράφων.Το Κεφάλαιο 3 παρουσιάζει μια εκτενή μελέτη της σημασιολογικής κατάτμησης, μιας διαδικασίας που στοχεύει στην απόδοση ετικετών κατηγορίας σε κάθε εικονοστοιχείο (pixel) μιας εικόνας. Το κεφάλαιο περιλαμβάνει μια συστηματική ανασκόπηση των παραδοσιακών μεθόδων σημασιολογικής κατάτμησης, πριν εστιάσει στον κόσμο της Βαθιάς Μάθησης, όπου εξετάζονται τόσο συνελικτικές όσο και βασισμένες σε transformers προσεγγίσεις. Παρουσιάζεται επίσης μια νέα, χαμηλής πολυπλοκότητας αλλά ιδιαίτερα ανταγωνιστική αρχιτεκτονική Βαθιάς Μάθησης για σημασιολογική κατάτμηση, η MResTNet, η οποία συνδυάζει συνελικτικά και μετασχηματιστικά δομικά στοιχεία. Μέσα από μια σειρά πειραμάτων και αξιολογήσεων, παρουσιάζεται το σκεπτικό πίσω από την αρχιτεκτονική και διερευνάται η αποτελεσματικότητά της. Το Κεφάλαιο 4 εξετάζει τις επιπλέον προκλήσεις του πεδίου της κατάτμησης στιγμιότυπου, όπου όχι μόνο απαιτείται επισήμανση εικονοστοιχείων ανά κατηγορία, αλλά και ανίχνευση των επιμέρους αντικειμένων. Οι αρχές της σημασιολογικής κατάτμησης και της ανίχνευσης αντικειμένων πρέπει να συνδυαστούν και να λειτουργήσουν συμπληρωματικά, ώστε κάθε μεμονωμένο αντικείμενο να επισημαίνεται και να διακρίνεται, ακόμα και σε περιπτώσεις που αλληλεπικαλύπτονται. Το κεφάλαιο αυτό εξετάζει προηγμένες τεχνικές Βαθιάς Μάθησης, αναλύοντας τα πλεονεκτήματα και τα μειονεκτήματα καθεμιάς. Παρουσιάζεται επίσης μια νέα προσέγγιση για τη βελτίωση της ακρίβειας και της ταχύτητας των μοντέλων κατάτμησης στιγμιότυπου, διατηρώντας υψηλή ακρίβεια και ταυτόχρονα χαμηλή, πραγματικού χρόνου πολυπλοκότητα, το δίκτυο DDMnet. Η μέθοδος αναλύεται και αξιολογείται έναντι του ανταγωνισμού, στα κυρίαρχα σύνολα δεδομένων αναφοράς του πεδίου, αποδεικνύοντας την υψηλή της αποδοτικότητα και τη χαμηλή υπολογιστική πολυπλοκότητα. Τέλος, το Κεφάλαιο 5 συνοψίζει το έργο κάθε ερευνητικού βήματος και περιγράφει τα κύρια σημεία εστίασης και τους στόχους που καθοδήγησαν τις ερευνητικές δραστηριότητες. Επιπλέον, αναδεικνύει τη συμβολή κάθε προτεινόμενης μεθόδου στο πεδίο της κατάτμησης εικόνας και ολοκληρώνεται με μια λίστα υποσχόμενων και καινοτόμων κατευθύνσεων για μελλοντική έρευνα, εμπνευσμένων από τις προτεινόμενες αρχιτεκτονικές.
περισσότερα
Περίληψη σε άλλη γλώσσα
This dissertation focuses on the image segmentation field through the study, development and application of Deep learning architectures on the most important and widely applicable field areas: semantic segmentation, document binarization, and instance segmentation. A strong emphasis is given on efficient, low complexity architectures that strike a balance between segmentation precision and computational efficiency, a combination that is crucial for practical real world applications. The work is structured into four chapters, one for the general image segmentation problem and one for each studied field area. Chapter 1 lays the groundwork for the dissertation by exploring image segmentation as a more generic research area and presenting its key subfields such as object detection, semantic and instance segmentation. Document binarization is also referenced as a distinctive semantic segmentation case. Objectives and challenges of each area are studied as well as the evaluation methods use ...
This dissertation focuses on the image segmentation field through the study, development and application of Deep learning architectures on the most important and widely applicable field areas: semantic segmentation, document binarization, and instance segmentation. A strong emphasis is given on efficient, low complexity architectures that strike a balance between segmentation precision and computational efficiency, a combination that is crucial for practical real world applications. The work is structured into four chapters, one for the general image segmentation problem and one for each studied field area. Chapter 1 lays the groundwork for the dissertation by exploring image segmentation as a more generic research area and presenting its key subfields such as object detection, semantic and instance segmentation. Document binarization is also referenced as a distinctive semantic segmentation case. Objectives and challenges of each area are studied as well as the evaluation methods used each time. The chapter also touches upon image classification, since pretraining architectures on the classification problem is a foundational part of the overall segmentation pipeline. The purpose of the chapter is to stand as a theoretical and practical introduction, establishing the importance of image segmentation in modern automated real world applications. In chapter 2 the challenging problem of document binarization is examined, as a critical step in the transformation of a document, typed or handwritten, into the digital world. A retrospective look into the popular methods of the past takes place, emphasizing in the qualities that enabled them to govern the field for decades before the advent of Deep learning. In addition to that, existing state-of-the-art convolutional methods are also explored and finally a top performing convolutional architecture is presented that combines modern architectural traits, such as multi resolution blocks and visual attention mechanisms. The method is compared in terms of accuracy, robustness and speed with the state-of-the-art contemporary methods on the (H)DIBCO datasets that have become a standard document binarization benchmark. Chapter 3 presents a comprehensive study of semantic segmentation, a task whose goal is to assign class labels to all the pixels of an image. The chapter goes through a systematic review of the traditional semantic segmentation methods before delving into the Deep learning world, where both convolutional and transformer based methods are examined. The chapter also presents a novel, low complexity but highly competitive Deep learning architecture for semantic segmentation, the MResTNet, that combines both convolutional and transformer architectural blocks. Through a series of experiments and evaluations, the motivation behind the architecture is presented and its efficacy is explored. Chapter 4 examines the additional challenges of the instance segmentation subfield, where not only pixel level class labeling has to take place but also individual instance detection. Semantic segmentation and object detection principles have to be combined and work hand-in-hand so that individual object instances are labeled and distinguished, even in cases where they overlap each other. This chapter explores advanced Deep learning techniques, examining the advantages and flaws of each one. The work also presents a new approach for enhancing the precision and speed of instance segmentation models, maintaining high accuracy and yet keeping low, real-time complexity, the DDMnet. The method is analyzed and evaluated against the competition, on the dominant area benchmark datasets, showcasing its high efficiency and low computational complexity. Finally, chapter 5 summarizes the work in each of the previous research steps and describes the main focus and targets that guided the research activities. Additionally, it outlines the value and contributions of each suggested method to the field of image segmentation and concludes with a list of promising and innovative potential future research directions, inspired by the proposed architectures.
περισσότερα