Περίληψη
Η παρούσα διδακτορική διατριβή συνοψίζει τεσσεράμισι χρόνια ερευνητικής προσπάθειας και κεκτημένης γνώσης της συγγραφέως στο αντικείμενο της περιγραφής και της ανάκτησης βασισμένη σε οπτική πληροφορία. Κύριος στόχος αποτέλεσε η ανάπτυξη νέων τεχνικών και η παραγωγή συνιστωσών που θα μπορούσαν να χρησιμοποιηθούν για την αποτελεσματική ανάκτηση βασισμένη στο οπτικό περιεχόμενο πολυμέσων. Με πυρήνα το πρόβλημα της αποδοτικής ανάκτησης εικόνας με βάση το οπτικό περιεχόμενο (Content Based Image Retrieval), οι ερευνητικές προσπάθειες και η κύρια ερευνητική συνεισφορά έγκεινται στην ανάπτυξη περιγραφέων εικόνων (image descriptors) που βασίζονται στην εξαγωγή των πιο διακριτικών χαρακτηριστικών της, με ευφυείς τεχνικές. Σε ανώτερο επίπεδο, αξιολογείται το συνολικό πλαίσιο της διαδικασίας της ανάκτησης και προτείνονται επιμέρους βελτιώσεις. Με εφαλτήριο την βιβλιογραφική έρευνα υπαρχουσών τεχνικών του πεδίου της ανάκτησης με βάση το οπτικό περιεχόμενο, εντοπίζονται οι αδυναμίες και ...
Η παρούσα διδακτορική διατριβή συνοψίζει τεσσεράμισι χρόνια ερευνητικής προσπάθειας και κεκτημένης γνώσης της συγγραφέως στο αντικείμενο της περιγραφής και της ανάκτησης βασισμένη σε οπτική πληροφορία. Κύριος στόχος αποτέλεσε η ανάπτυξη νέων τεχνικών και η παραγωγή συνιστωσών που θα μπορούσαν να χρησιμοποιηθούν για την αποτελεσματική ανάκτηση βασισμένη στο οπτικό περιεχόμενο πολυμέσων. Με πυρήνα το πρόβλημα της αποδοτικής ανάκτησης εικόνας με βάση το οπτικό περιεχόμενο (Content Based Image Retrieval), οι ερευνητικές προσπάθειες και η κύρια ερευνητική συνεισφορά έγκεινται στην ανάπτυξη περιγραφέων εικόνων (image descriptors) που βασίζονται στην εξαγωγή των πιο διακριτικών χαρακτηριστικών της, με ευφυείς τεχνικές. Σε ανώτερο επίπεδο, αξιολογείται το συνολικό πλαίσιο της διαδικασίας της ανάκτησης και προτείνονται επιμέρους βελτιώσεις. Με εφαλτήριο την βιβλιογραφική έρευνα υπαρχουσών τεχνικών του πεδίου της ανάκτησης με βάση το οπτικό περιεχόμενο, εντοπίζονται οι αδυναμίες και οι ευκαιρίες βελτίωσης των συστημάτων που συνολικά κατηγοριοποιούνται ως εξής:1.Παρά την πληθώρα προτεινόμενων προσεγγίσεων, επικρατεί ακόμη μια βάσιμη ασάφεια σχετικά με την κατηγορία των χαρακτηριστικών (καθολικά ή τοπικά) που θα αποτελέσουν το σώμα των περιγραφέων για την αποτελεσματικότερη εξυπηρέτηση της ανάκτησης. Το αντικείμενο της αντιπαράθεσης συνοψίζεται στις εξειδικευμένες ανάγκες του πεδίου εφαρμογής, το συνολικό υπολογιστικό κόστος και στις αποθηκευτικές ανάγκες των ολοένα αυξανόμενων δεδομένων.2.Ο εμπλουτισμός του τελικού περιγραφέα για την ευρύτερη αναπαράσταση του περιεχομένου της εικόνας, που επιτυγχάνεται με τον συνδυασμό πολλαπλών διαφορετικών χαρακτηριστικών, καθώς και η διανυσματοποίηση αυτών με τρόπο που να επιτρέπει την μέτρηση της ομοιότητας μεταξύ των αναπαραστάσεων, συνοδεύεται από ανάλογη αύξηση της πολυπλοκότητας, η οποία επηρεάζει σημαντικά την αποδοτικότητα μιας μεθόδου.3.Τα προτεινόμενα μοντέλα ανάκτησης, που ευρέως χρησιμοποιούνται στην βιβλιογραφία, είναι πολυπαραμετρικά συστήματα που απαιτούν αρχικοποιήσεις και συντονισμό από τους χρήστες στα διάφορα στάδιά τους: από την ρύθμιση παραμέτρων σχετικές με την προ-επεξεργασία των εικόνων, την επιλογή κλιμακώσεων για την αναζήτηση χαρακτηριστικών, τον προκαθορισμό του μεγέθους του διανύσματος του περιγραφέα και στάθμισής του, μέχρι και την χρονοβόρα αναδραστική αξιολόγηση της συνάφειας των αποτελεσμάτων από τον χρήστη για σταδιακή βελτίωση των προβαλλόμενων αποτελεσμάτων.4.Τέλος, στην συντριπτική τους πλειοψηφία, οι μέθοδοι της βιβλιογραφίας δεν μπορούν να αξιολογηθούν σε πολλαπλές πειραματικές διατάξεις ή να επεκταθούν, καθώς δεν διατίθενται υλοποιήσεις λογισμικού οργανωμένες σε επεκτάσιμες βιβλιοθήκες και πλατφόρμες ανοιχτού κώδικα, αφιερωμένες αποκλειστικά στην ανάκτηση με βάση το οπτικό περιεχόμενο. Με τα παραπάνω σημεία να αποτελούν τον κεντρικό άξονα γύρω από τον οποίο οργανώθηκε η έρευνα, η διατριβή ξεκινά με μία εκτενή ανασκόπηση της βιβλιογραφίας που καλύπτει όλα τα συνιστώντα μέρη και τα διαδοχικά στάδια της περιγραφής και ανάκτησης με βάση το οπτικό περιεχόμενο. Από καθιερωμένες στρατηγικές και παραλλαγές αυτών, μέχρι σύγχρονες τάσεις και εξελίξεις, η μελέτη (α) παρέχει το γνωσιακό υπόβαθρο για τον αναγνώστη και (β) αποτελεί τη βάση για τον σαφή προσδιορισμό των κινήτρων της διατριβής. Κατά την ανασκόπησης της βιβλιογραφίας παρουσιάζεται επιπλέον μια εστιασμένη μελέτη των στρατηγικών που χρησιμοποιούνται για τη μέτρηση της απόδοσης των συστημάτων ανάκτησης, ενώ παρατίθενται αποτελέσματα πρωτότυπης έρευνας που αξιολογούν και συγκρίνουν μονότιμες μετρικές της απόδοσης των συστημάτων, μέσα από ένα ευρύ φάσμα διαφορετικών πειραματικών διατάξεων. Προχωρώντας στον κεντρικό πυρήνα της διατριβής, παρουσιάζονται νέες, πρωτότυπες τεχνικές περιγραφής και ανάκτησης, απορρέουσες από την πολύπλευρη διερεύνηση του θέματος, με στόχο την κάλυψη όλων των ανοιχτών θεμάτων και των ευκαιριών βελτίωσης που απαριθμήθηκαν παραπάνω. Η παρουσίαση των πρωτότυπων προτεινόμενων προσεγγίσεων οργανώθηκε με βάση το είδος των χαρακτηριστικών που ενσωματώνουν και συνολικά παρουσιάζονται: α. Ένα ολοκληρωμένο σύστημα ανάκτησης βασισμένο σε περιγραφέα καθολικών χαρακτηριστικών: Πρόκειται για μια πλήρως μη επιβλεπόμενη, προσαρμοστική μέθοδο, που δεν απαιτεί προκαθορισμό παραμέτρων σε κανένα της στάδιο. Η αποδοτική και ταυτόχρονα αποτελεσματική αναπαράσταση του οπτικού περιεχομένου της απεικόνισης πραγματοποιείται με τον εντοπισμό και τον συνδυασμό των πληροφοριών περιγραμμάτων και χρώματος, που εξάγονται με μια τεχνική εμπνευσμένη από το ανθρώπινο οπτικό σύστημα. Η μέθοδος αξιολογήθηκε σε μια ευρεία σειρά πειραματικών διατάξεων σε πέντε βάσεις εικόνων ποικίλης θεματολογίας και συγκρίθηκε με μεθόδους της βιβλιογραφίας, καθολικών αλλά και τοπικών χαρακτηριστικών. b. Δύο συστήματα ανάκτησης βασισμένα σε περιγραφείς τοπικών χαρακτηριστικών: Το πρώτο στηρίζεται στην ιδέα του εμπλουτισμού του κλασικού διανύσματος συχνοτήτων εμφάνισης των οπτικών λέξεων με χωρική πληροφορία, εντοπίζοντας την κατανομή της εντροπίας κάθε οπτικής λέξης με την δημιουργία ομόκεντρων δακτυλίων στα κέντρα των κλάσεων. Το δεύτερο σύστημα παρουσιάζει μια τρίπλευρη συμβολή: (i) εξαλείφει την ανάγκη του καθορισμού της ελεύθερης παραμέτρου που αφορά την επιλογή του μεγέθους του λεξικού, υπολογίζοντας δυναμικά το κατάλληλο μέγεθος με την βοήθεια ενός αυτοφυούς και αυτο-οργανούμενου νευρωνικού δικτύου τύπου GAS (SGONG) που έχει την δυνατότητα να αποφασίζει για την δημιουργία, την αφαίρεση και τη κατάργηση νευρώνων. (ii) Για την αντιστοίχιση των χαρακτηριστικών στις κλάσεις του λεξικού προτείνεται μια soft-weighting τεχνική που αποδίδει κάθε χαρακτηριστικό σε μια μοναδική κλάση, υπολογίζοντας τον βαθμό συμμετοχής από ιστορικά χαρακτηριστικά. Η μέθοδος βελτιώνει τα αποτελέσματα, διατηρώντας παράλληλα υπολογιστικό πλεονέκτημα έναντι των κλασικών προσεγγίσεων. (iii) Παράγεται ένας νέος, σύνθετος περιγραφέας που περιέχει πληροφορία χρώματος και πληροφορία υφής συνδυασμένες στο επίπεδο εξαγωγής των χαρακτηριστικών. c. Μια ολόκληρη οικογένεια υβριδικών περιγραφέων: Προτείνεται ένα πλαίσιο (framework), για την μετατροπή εδραιωμένων καθολικών περιγραφέων σε περιγραφείς τοπικών χαρακτηριστικών. Βασιζόμενοι στην απλή ιδέα ότι θα μπορούσαμε να υιοθετήσουμε μια σειρά τεχνικών δειγματοληψίας για τον καθορισμό κλιμακούμενων τμημάτων της εικόνας που στη συνέχεια θα περιγραφούν αυτόνομα με μεθόδους καθολικών χαρακτηριστικών που έχουν αποδεδειγμένη απόδοση σε προβλήματα ανάκτησης με βάση το οπτικό περιεχόμενο, καταλήξαμε σε μια οικογένεια ισχυρών και συνάμα χαμηλού υπολογιστικού κόστους περιγραφέων τοπικών χαρακτηριστικών.Στο πέμπτο τμήμα της διατριβής παρουσιάζονται τα εργαλεία και οι υλοποιήσεις σε υλικό και λογισμικό, που αναπτύχθηκαν στα πλαίσια της διατριβής. Η υλοποίηση σε υλικό αφορά την εκμετάλλευση της παράλληλης επεξεργαστικής ισχύος πολλαπλών πυρήνων που διαθέτουν οι κάρτες γραφικών (GPU) για την επιτάχυνση των υπολογισμών, με σκοπό την επίτευξη ευρετηρίασης πραγματικού χρόνου για ροές εικόνων (video) και την μείωση του χρόνου ανάκτησης για βάσεις εικόνων μεγάλης κλίμακας. Υλοποιήθηκε, ακόμα, μια νέα πλατφόρμα ανοιχτού κώδικα σύνθεσης και εκτέλεσης μεθόδων περιγραφής και ανάκτησης με βάση το οπτικό περιεχόμενο. Η προτεινόμενη πλατφόρμα προσφέρει ένα ολοκληρωμένο πλαίσιο για την ανάπτυξη συστημάτων που στηρίζονται στην αρχιτεκτονική του μοντέλου Bag of Visual Words (BOVW). Σκοπός ήταν να παρέχει λύσεις για την εύκολη ενσωμάτωση CBIR τεχνικών, για ένα ευρύ φάσμα εφαρμογών. Χρησιμεύει ως πλατφόρμα δοκιμών για τους ερευνητές και μπορεί να χρησιμοποιηθεί για την αξιολόγηση υφιστάμενων αλλά και νέων προσεγγίσεων καθώς είναι επεκτάσιμη. Στο σύνολό της η διατριβή παρουσιάζει σημαντική συνεισφορά στην επιστήμη καθώς το πρόβλημα της ανάκτησης εικόνων με βάση το οπτικό περιεχόμενο αντιμετωπίζεται σφαιρικά και παρουσιάζονται λύσεις καθολικών και αλλά και τοπικών περιγραφέων με προτάσεις βελτιώσεων υπαρχουσών τεχνικών και παρουσίαση καινοτόμων σχημάτων.Όπως αναλύθηκε παραπάνω, αντιμετωπίζονται καίρια προβλήματα των συστημάτων ανάκτησης και προτείνονται πρωτότυπες μέθοδοι περιγραφής και ανάκτησης βασισμένες σε ευφυείς τεχνικές, που βελτιώνουν τα αποτελέσματα της σύγχρονης βιβλιογραφίας και αξιολογούνται εκτενώς σε βάσεις εικόνων γενικής θεματολογίας καθώς και σε πειράματα μεγάλης κλίμακας.Σε όλες τις υλοποιήσεις, οι αναπαραστάσεις των εικόνων διανυσματικά προκύπτουν από σύνθεση πληροφοριών (υφή/χρώμα/περιγράμματα/χωρική κατανομή) στο επίπεδο της εξαγωγής των χαρακτηριστικών ενώ ταυτόχρονα γίνεται προσπάθεια εξάλειψης των ελεύθερων παραμέτρων στα διάφορα στάδια της ανάκτησης.Εφαρμογές λογισμικού όλων των προτεινόμενων μεθόδων είναι διαθέσιμες σε C#, Matlab και Java, υπό την άδεια χρήσης GNU GPL. Υλοποιήσεις περιλαμβάνονται, επίσης, ως επεκτάσεις, στην πλατφόρμα Img (Rummager) και στην βιβλιοθήκη ανάκτηση ανοικτού κώδικα LIRe
περισσότερα
Περίληψη σε άλλη γλώσσα
The thesis you are holding summarizes the author's four and a half yearsof scientific efforts, experimentation and gained knowledge in the field ofvisual content based description and retrieval.The main goal of this thesis was the development of novel techniques andcomponents, that could be utilized for effective retrieval based on multimedia'svisual content. With efficient content based image retrieval (CBIR)being the core of the addressed problem, the main scientific efforts andcontributions lie in the implementation of vectorized image representations(descriptors) based on extracting distinctive image features. On a next level,the entire retrieval framework is evaluated and several improvements areproposed, implemented and tested.Through an in-depth literature review serving as the starting point, theweaknesses, shortcomings and opportunities for improvements were located,and can be summarized as follows:1. Despite the massive amount of proposed approaches, there is still avalid un ...
The thesis you are holding summarizes the author's four and a half yearsof scientific efforts, experimentation and gained knowledge in the field ofvisual content based description and retrieval.The main goal of this thesis was the development of novel techniques andcomponents, that could be utilized for effective retrieval based on multimedia'svisual content. With efficient content based image retrieval (CBIR)being the core of the addressed problem, the main scientific efforts andcontributions lie in the implementation of vectorized image representations(descriptors) based on extracting distinctive image features. On a next level,the entire retrieval framework is evaluated and several improvements areproposed, implemented and tested.Through an in-depth literature review serving as the starting point, theweaknesses, shortcomings and opportunities for improvements were located,and can be summarized as follows:1. Despite the massive amount of proposed approaches, there is still avalid uncertainty concerning the type of features (global or local) thatshould be the basis of the description method to accommodate contentbased image retrieval. The object of debate boils down to the specificsof the domain of application, overall computational cost, and storingneeds for the ever growing data.2. Combining different extracted image features (image attributes) so asto effectively enrich the final representation, and vectorizing it so thatsimilarity can be robustly calculated, usually comes with the respectivecost in terms of complexity, that significantly affects the efficiency ofa method.3. The retrieval frameworks, extensively employed by the scientific community,are unrealistic multiparametric systems, that demand user initializationsand tuning in various steps throughout the retrieval process;from parameters involved in image pre-processing, to selectingscales, vector lengths and weighting factors for the formation of thedescriptors and even demanding hands-on relevance feedback from theuser.4. Last but not least, in their vast majority, proposed methods from theliterature cannot be evaluated, further tested or build upon, due to alack of provided open source implementations, organized in extensibleretrieval platforms and libraries.Motivated by all points raised above, the dissertation starts by providingan extensive literature study on content based image retrieval, covering allthe correlated components and coherent steps. From well-established strategiesand their variants, to recent trends and breakthroughs, this review (a)provides an updated knowledge background for the reader and (b) serves asthe basis for the establishment of the thesis' motivations.During the literature review, we additionally provide a focused study ofthe strategies employed to measure the performance of retrieval systems andpresent original research results evaluating and directly comparing single-valuedmetrics, through a wide range of diverse experimental setups.Moving on to the main core of the thesis, we present novel techniquesfor visual content based retrieval, exploring the matter with varying approaches,aiming in covering all open issues and improvement opportunitiesdiscussed earlier. We organized the presentation of the proposed implementationsbased on the kind of features they employ, and in total we contributewith:a. One complete retrieval system based on a new global-featuredescriptor: It is a fully unsupervised, parameter-free, adaptive method,that extracts and combines contour and color information to effectively representimages, loosely inspired by the Human Visual System.b. Two local-features' retrieval methods: The first fuses the ideaof inserting the spatial relationship of visual words (in terms of their distributionentropy), enhancing the conventional Bag-of-Visual-Words (BOVW)aggregation model and leading to a robust, scale invariant descriptor. Thesecond, presents a three-fold contribution: it eliminates the free parameter ofthe codebook size by dynamically calculating the appropriate size via a self-growing,self-organized gas neural network; it proposes a new soft-weightingtechnique for the assignment of features to visual words that improves theperformance while maintaining a computational advantage over the classic approach; it introduces a novel composite descriptor that combines color and texture information extracted at the features' level.c. An entire family of hybrid descriptors: It is a framework forlocalizing the description mechanism of well-established, suited for retrieval,global-descriptors. Based on the simple idea that we could adopt a varietyof sampling techniques to define different image patches in multiple scalesand then proceed with a descriptor traditionally used for global image descriptionsto individually treat and describe the visual information of thosepatches, we were able to obtain a set of powerful yet light-weighted localfeatures descriptors.Part V presents the hardware and software implementations and tools,developed during the course of the thesis.The hardware implementation concerns the utilization of the multi-coreparallel execution power of GPUs, for the acceleration of the indexing part ofthe retrieval process, so as to achieve real-time indexing of video sequencesand fast execution times for large-scaled image collections.A novel open source and extensible Java image retrieval library, namedGolder Retriever, was implemented. It is complete framework for CBIRbased on the BOVW approach. The scope of the library is to provide solutionson how to integrate CBIR techniques in an easy way, on a widerange of applications. It serves as a testing platform for researchers andcan be used to evaluate existing or new CBIR approaches that can be easilyincorporated via the embedded plug-in system.The contribution, the overall evaluation and the future research directionsare discussed in the Concluding Remarks section.Software implementations of all proposed methods are available in C#, Matlab and Java, and can be used for testing and evaluation under the GNU GPL license. They are also included as extensions to the Img(Rummager) retrieval application and LIRe open source retrieval library
περισσότερα