Περίληψη
Ο μεγάλος όγκος και ποικιλομορφία των ψηφιακών εικόνων που χρησιμοποιούνται σε διάφορα πεδία εφαρμογών έχουν αναδείξει την απαίτηση για τεχνικές αναζήτησης εικόνων με βάση το περιεχόμενό τους. Συγκεκριμένα, υπάρχει μια αυξανόμενη ανάγκη για την ανάπτυξη αυτόματων τεχνικών ανάλυσης και περιγραφής του περιεχομένου των εικόνων με σκοπό την αποδοτική ανάκλησή τους από μεγάλες συλλογές, με βάση το περιεχόμενό τους. Στη διατριβή αυτή παρουσιάζονται και εξετάζονται μηχανισμοί για την περιγραφή και ανάκληση οπτικής πληροφορίας με βάση ιδιότητες της αντίληψης, έχοντας ως κίνητρο τη βελτίωση της αντιστοίχισης μεταξύ των αποτελεσμάτων ανάκλησης εικόνων με βάση το περιεχόμενό τους και των προσδοκιών των τελικών χρηστών. Οι προτεινόμενοι μηχανισμοί αφορούν την περιγραφή των πρωτογενών οπτικών γνωρισμάτων καθώς και των χωρικών τους διατάξεων και δίνουν έμφαση στην αναπαράσταση αυτής της πληροφορίας σε συνάρτηση με την κλίμακα παρατήρησης. Η αναπαράσταση αυτή χρησιμοποιείται στη συνέχεια για την εξαγ ...
Ο μεγάλος όγκος και ποικιλομορφία των ψηφιακών εικόνων που χρησιμοποιούνται σε διάφορα πεδία εφαρμογών έχουν αναδείξει την απαίτηση για τεχνικές αναζήτησης εικόνων με βάση το περιεχόμενό τους. Συγκεκριμένα, υπάρχει μια αυξανόμενη ανάγκη για την ανάπτυξη αυτόματων τεχνικών ανάλυσης και περιγραφής του περιεχομένου των εικόνων με σκοπό την αποδοτική ανάκλησή τους από μεγάλες συλλογές, με βάση το περιεχόμενό τους. Στη διατριβή αυτή παρουσιάζονται και εξετάζονται μηχανισμοί για την περιγραφή και ανάκληση οπτικής πληροφορίας με βάση ιδιότητες της αντίληψης, έχοντας ως κίνητρο τη βελτίωση της αντιστοίχισης μεταξύ των αποτελεσμάτων ανάκλησης εικόνων με βάση το περιεχόμενό τους και των προσδοκιών των τελικών χρηστών. Οι προτεινόμενοι μηχανισμοί αφορούν την περιγραφή των πρωτογενών οπτικών γνωρισμάτων καθώς και των χωρικών τους διατάξεων και δίνουν έμφαση στην αναπαράσταση αυτής της πληροφορίας σε συνάρτηση με την κλίμακα παρατήρησης. Η αναπαράσταση αυτή χρησιμοποιείται στη συνέχεια για την εξαγωγή περιοχών της εικόνας οι οποίες παρουσιάζουν χαρακτηριστικές χωρικές διατάξεις γνωρισμάτων καθώς και για την αναγνώριση παραγόμενων από την κλίση της εικόνας κυρίαρχων δομικών στοιχείων. Τόσο για τα γνωρίσματα όσο και για τα στοιχεία αυτά είναι γνωστή η εξέχουσα περιγραφική τους σημασία ως συνιστωσών του οπτικού περιεχομένου. Η οργάνωση των κυρίαρχων δομικών στοιχείων σε αντιληπτικά σύνολα αποδίδει μια επιπρόσθετη συνιστώσα του οπτικού περιεχομένου. Τα γνωρίσματα τέτοιων αντιληπτικών συνόλων ενοποιούνται στη συνέχεια με πληροφορίες περί των χωρικών διατάξεων των πρωτογενών οπτικών γνωρισμάτων και χρησιμοποιούνται στην περιγραφή και ανάκληση της οπτικής πληροφορίας. Αρχικά παρουσιάζεται μια μέθοδος αναπαράστασης πρωτογενών οπτικών γνωρισμάτων βασισμένη στη σύνοψη κλιμάκων του οπτικού περιεχομένου, η οποία είναι εμπνευσμένη από τη φυσιολογία της όρασης. Η προτεινόμενη αναπαράσταση χρησιμοποιεί την κανονικοποίηση, όσον αφορά την κλίμακα, της απόκρισης των συναρτήσεων ανίχνευσης γνωρισμάτων για τη σύνοψη των πληροφοριών περί οπτικών γνωρισμάτων από ένα εύρος κλιμάκων σε μια εικόνα. Η αναπαράσταση της σύνοψης κλιμάκων διευκολύνει την εισαγωγή μιας μεθόδου για την περιγραφή πρωτογενών οπτικών γνωρισμάτων στο εύρος κλιμάκων στο οποίο λαμβάνουν χώρα, την εξαγωγή άνω του ενός σημαίνοντος εύρους κλιμάκων από μια εικόνα καθώς και την ταξινόμηση των οπτικών γνωρισμάτων με βάση το εύρος κλιμάκων στο οποίο λαμβάνουν χώρα. Η επιπρόσθετη πληροφορία που παράγεται επιδεικνύεται ως χρήσιμη στην περιγραφή του περιεχομένου των εικόνων, όπως επίσης και σε ένα πλήθος διεργασιών επεξεργασίας εικόνων. Επιπρόσθετα, η αναπαράσταση σύνοψης κλιμάκων μπορεί να υπολογισθεί παράλληλα και επιδεικνύει υπολογιστικές και περιγραφικές ιδιότητες οι οποίες επεκτείνουν τον πρότυπο ορισμό της οπτικής πληροφορίας με βάση την κλίμακα παρατήρησης. Η μελέτη των πρωτογενών οπτικών γνωρισμάτων ολοκληρώνεται με την εξέταση του ρόλου τους στην ανάκληση εικόνων με βάση το περιεχόμενο. Στη συνέχεια, η διερεύνηση για την σχετική με την αντίληψη περιγραφή και ανάκληση περιεχομένου εικόνων εστιάζεται στη δυνατότητα εξαγωγής και σύγκρισης, όσον αφορά στην οπτική τους ομοιότητα, περιοχών εικόνων οι οποίες επιδεικνύουν αναλλοίωτη διάταξη στο χώρο όσον αφορά με πρωτογενή οπτικά γνωρίσματα. Χρησιμοποιώντας τοπικούς περιγραφείς με μεταβλητό χωρικό εύρος δειγματοληψίας, εξάγεται μια πολυ-κλιματική αναπαράσταση των χωρικών διατάξεων των πρωτογενών οπτικών γνωρισμάτων. Η επέκταση της αναπαράστασης της σύνοψης κλιμάκων για τοπικούς περιγραφείς καθιστά εφικτή την, όσον αφορά στην κλίμακα, κανονικοποίησης τους. Αυτή η κανονικοποίηση μπορεί στη συνέχεια να χρησιμοποιηθεί για την αναλλοίωτη, όσον αφορά την κλίμακα, περιγραφή μεταβλητών χωρικών διατάξεων των πρωτογενών οπτικών γνωρισμάτων. Η ομαδοποίηση των, κανονικοποιημένων, όσον αφορά στην κλίμακα, τοπικών περιγραφέων διευκολύνει την εξαγωγή περιοχών από εικόνες που επιδεικνύουν αναλλοίωτη διάταξη πρωτογενών οπτικών γνωρισμάτων στο χώρο. Επίσης, η χρήση της αναπαράστασης της σύνοψης κλιμάκων για την αναπαράσταση χωρικών διατάξεων των πρωτογενών οπτικών γνωρισμάτων καταλήγει σε μειωμένες απαιτήσεις όσον αφορά στη χωρητικότητα της μνήμης. Επιπρόσθετα, ορισμένα γνωρίσματα των τοπικών περιγραφέων προτείνονται για την εκλέπτυνση της περιγραφής των χωρικών διατάξεων των πρωτογενών οπτικών γνωρισμάτων και χρησιμοποιούνται ως κατηγορήματα στη διατύπωση οπτικών επερωτήσεων. Τέτοιου είδους γνωρίσματα αντιστοιχίζονται με οπτικές ιδιότητες των εικόνων προκειμένου να προσφερθούν οπτικές επερωτήσεις οι οποίες είναι κατανοητές από τους τελικούς χρήστες. Τελικά, η αποκτηθείσα αναπαράσταση των χωρικών διατάξεων των πρωτογενών οπτικών γνωρισμάτων χρησιμοποιείται για την αναδίφηση και ανάκληση παρόμοιων οπτικά εικόνων. Προκειμένου να εμπλουτιστεί περαιτέρω η παραχθείσα περιγραφή του περιεχομένου εικόνων με γνωρίσματα που σχετίζονται με την αντίληψη, εξετάζεται η συνιστώσα που απορρέει από τη διαδικασία της αντιληπτικής οργάνωσης του περιεχομένου. Για το σκοπό αυτό παρουσιάζονται επίσης δύο προσεγγίσεις για την εξαγωγή και περιγραφή δύο κλάσεων αντιληπτικών συνόλων. Αυτές συνίστανται στην κλάση των αντιληπτικών συνόλων από γραμμές προοπτικής απεικόνισης και στην κλάση των περιγραμμάτων. Σχετικά με την πρώτη κλάση, αντιληπτικά σύνολα που συντίθενται από συγκλίνοντα ευθύγραμμα τμήματα εξάγονται από εικόνες, βάσει υποθέσεων περίτης σύγκλισης τους προς ένα σημείο διαφυγής. Τέτοιου είδους υποθέσεις διατυπώνονται, αρχικά, με βάση την φωτεινή αντίθεση και το μέγεθος των ευθύγραμμων τμημάτων μιας εικόνας και στη συνέχεια εξετάζονται ως προς την εγκυρότητα τους, χρησιμοποιώντας υποστηρικτικές ή αντικρουόμενες αποδείξεις από την εικόνα. Τα ευθύγραμμα τμήματα για τα οποία οι υποθέσεις επαληθεύονται ομαδοποιούνται στο ίδιο σύνολο με γνωρίσματα τα οποία αφορούν την όψη του συνόλου. Ο ίδιος αλγόριθμος γενικεύεται για νοητά ευθύγραμμα τμήματα, αυτά δηλαδή τα οποία συντίθενται από την συγγραμική ύπαρξη τοπικών γνωρισμάτων της εικόνας, όπως γωνίες και στιγμές. Τα ανιχνευθέντα αντιληπτικά σύνολα και τα γνωρίσματά τους επιδεικνύονται ως χρήσιμα στην ανάκληση και ταξινόμηση εικόνων με βάση το περιεχόμενο τους. Σχετικά με τη δεύτερη κλάση αντιληπτικών συνόλων, παρουσιάζεται μια προσέγγιση για την περιγραφή και ανάκληση περιγραμμάτων, η οποία χρησιμοποιεί μια μέθοδο βασισμένη στην καμπυλότητα. Η μέθοδος αυτή ανιχνεύει αντιληπτικώς σχετικά και υπολογιστικώς σταθερά σημεία αναφοράς πάνω στα περιγράμματα. Συγκεκριμένα, τα ακρότατα της καμπυλότητας ακολουθούνται στο χώρο κλιμάκων του περιγράμματος και η κανονικοποιημένη, όσον αφορά στην κλίμακα, τιμή της καμπυλότητάς τους χρησιμοποιούνται στη διατύπωση ενός μέτρου για την διαπίστωση της σημασίας τους. Χρησιμοποιώντας τα πιο σημαίνοντα σημεία του περιγράμματος, επιτυγχάνεται η αποσύνθεση σε τμήματα των περιγραμμάτων, η οποία χρησιμοποιείται στην ευθυγράμμισή τους. Η δυνατότητα για ευθυγράμμιση περιγραμμάτων χρησιμοποιείται τελικά στην εύρεση παρόμοιων περιγραμμάτων, βάσει ενός μέτρου ομοιότητας το οποίο συλλέγει πληροφορίες περίτης σχετικής μετατόπισης ευθυγραμμισμένων (αντίστοιχων) τμημάτων των περιγραμμάτων. Η ολοκληρωμένη χρήση πληροφορίας περίτων χωρικών διευθετήσεων των πρωτογενών οπτικών γνωρισμάτων και των αντιληπτικών συνόλων στην ανάκληση οπτικής πληροφορίας με βάση το περιεχόμενο, καθίσταται δυνατή με την εισαγωγή μιας διεπιφάνειας χρήσης υψηλής σαφήνειας. Η διεπιφάνεια αυτή διευκολύνει την επιλογή τόσο συγκεκριμένων συνιστωσών του οπτικού περιεχομένου όσο και των γνωρισμάτων τους και καθιστά δυνατή τη χρήση τους ως κατηγορημάτων σε οπτικές επερωτήσεις. Επιπρόσθετα, η κατ’ επανάληψη παράθεση κριτηρίων ταξινόμησης προτείνεται ως μέθοδος για την ενοποίηση πληροφοριών σχετικών με το περιεχόμενο μιας εικόνας αλλά και για την διαδραστική ταξινόμηση συλλογών από εικόνες.
περισσότερα
Περίληψη σε άλλη γλώσσα
The large volume and variety of digital images, currently acquired and used in different application domains, has given rise to the requirement for content-based image management and retrieval techniques. In particular, there is an increasing need for the development of automated image content analysis and description techniques in order to retrieve images efficiently from large collections, based on their visual content. In this dissertation, mechanisms for the perceptually relevant description and retrieval of visual information are presented and discussed, motivated by the need to provide a better match between content-based image retrieval results and end user expectations. The proposed mechanisms concern the description of primitive visual features and spatial arrangements of such features, and emphasize the representation of this information with respect to scale of observation. This scale dependent representation is subsequently used to extract image regions that exhibit a chara ...
The large volume and variety of digital images, currently acquired and used in different application domains, has given rise to the requirement for content-based image management and retrieval techniques. In particular, there is an increasing need for the development of automated image content analysis and description techniques in order to retrieve images efficiently from large collections, based on their visual content. In this dissertation, mechanisms for the perceptually relevant description and retrieval of visual information are presented and discussed, motivated by the need to provide a better match between content-based image retrieval results and end user expectations. The proposed mechanisms concern the description of primitive visual features and spatial arrangements of such features, and emphasize the representation of this information with respect to scale of observation. This scale dependent representation is subsequently used to extract image regions that exhibit a characteristic spatial arrangement of primitive features and identify gradient-derived dominant structural elements, which are both known to be significant descriptive components of visual content. The organization of gradient-derived dominant structural elements into perceptual groups yields an additional component of visual content. Attributes of such perceptual groups are then integrated with information about the spatial arrangement of primitive visual features and used in the description and content-based retrieval of images. Initially, the role of primitive visual features in the formation of image content is considered and a physiology-inspired method is presented for their representation, based on the scale-summarization of visual content. The proposed representation utilizes the scale-normalization of feature detection response functions to summarize visual feature information from a range of scales into a single image. This scale-summarized representation facilitates the introduction of a method for the description of primitive features at the range of image scales at which they occur, the extraction of more than one meaningful ranges of scales from an image, and the classification of primitive visual features with respect to the range of scales at which they occur. The additional information thus generated is demonstrated to be useful in the description of image content, as well as in a number of image processing tasks. Furthermore, the scale-summarized representation can be computed in parallel and exhibits computational and descriptive properties that extend the standard representation of visual information with respect to scale. The study of primitive visual features is concluded with a discussion about their role in content-based image retrieval. Subsequently, the investigation for the perceptually relevant description and retrieval of image content is focused on the ability to extract and compare, with respect to their visual similarity, image regions that exhibit a constant spatial arrangement of primitive visual features. Using local descriptors with varying image sampling aperture, a multiscale representation of the spatial arrangements of primitive features is derived. The extension of the scale-summarized representation for local descriptors makes their scale-normalization possible. This scale-normalization can then be utilized for the constant description of scale-varying spatial arrangements of primitive features. The clustering of scale-normalized local descriptors facilitates the extraction of image regions that exhibit a constant spatial arrangement of primitive features, even when these features vary at scale. In addition, the scale-summarized representation of spatial arrangements of primitive features results in reduced memory capacity requirements. Furthermore, attributes of local descriptors are proposed for the refinement of the description of spatial arrangements of primitive features and are used as predicates in the formulation of visual queries. Such attributes are mapped onto visual properties of images to provide visual queries which are comprehensible by end users. Finally, the acquired representation of spatial arrangements of primitive features is utilized for the browsing and retrieval of visually similar images. In order to further enrich the derived description of image content with perceptually relevant attributes, the component of visual content resulting from the process of perceptual organization is considered and two approaches are presented for the extraction and description of two classes of perceptual groups. These are the class of linearly perspective perceptual groups and the class of silhouette boundaries. Regarding the first class, perceptual groups that consist of converging line segments are extracted from images, based on hypotheses about their convergence to a vanishing point. Such hypotheses are initially formulated, based on the contrast and the size of line segments in an image and subsequently tested, as to their validity, utilizing supporting or contradicting image evidence. Line segments for which the hypothesis is verified are assigned to the same group along with appearance-related attributes of that group. The same algorithm is generalized for subjective line segments that is line segments that are composed of collinear local image features, such as corners or dots. The detected perceptual groups as well as their attributes are demonstrated to be of use in the content-based retrieval and classification of images. With respect to the second class of perceptual groups, an approach is presented for the description and retrieval of silhouette boundaries, which utilizes a curvature-based method to detect perceptually significant and computationally stable anchor points. In particular, curvature extrema are tracked along the scale-space of the contour and their scale-normalized curvature across scale is utilized to formulate a salience metric. Using the most salient contour points, a piecewise decomposition of contours is achieved and further utilized in their alignment. The ability to align contours is finally utilized in matching similar contours, based on a similarity metric which captures information about the relative displacement of aligned (corresponding) contour segments (pieces). The integrated use of information about spatial arrangements of primitive visual features and perceptual groups in content-based visual information retrieval is made possible by the introduction of a high specificity user interface, which facilitates the selection of individual visual content components and their attributes and their use as predicates in visual queries. In addition, the iterative introduction of image classification criteria is proposed as a method for integrating information about image content and interactively classifying image collections.
περισσότερα