Περίληψη
Στα τελευταία χρόνια υπάρχει ταχεία ανάπτυξη του μεγέθους των πολυμεσικών δεδομένων λόγω της ευκολίας δημιουργίας τους. Ένα από τα κυριότερα συστατικά των πολυμεσικών δεδομένων είναι οι ψηφιακές εικόνες. Καθημερινά, παράγονται giga-bytes εικόνων, με αποτέλεσμα, να δημιουργούνται τεράστια μεγέθη πληροφορίας. Η αποτελεσματική εκμετάλλευση όλης αυτής της πληροφορίας απαιτεί έξυπνες τεχνικές και νέα τεχνολογία. Για το σκοπό αυτό, η αποθήκευση των πολυμεσικών πληροφοριών πρέπει να οργανωθεί με τέτοιον τρόπο ώστε να επιτρέπει την αποδοτική πλοήγηση, αναζήτηση και ανάκτησή τους. Η παρούσα διατριβή παρουσιάζει πέντε τεχνικές που βελτιώνουν τα συστήματα ανάκτησης εικόνων με βάση το περιεχόμενό τους. Η πρώτη τεχνική μειώνει τις χρωματικές αποχρώσεις μιας εικόνας με την χρησιμοποίηση στατιστικών συστάδων (Clustering) συνδυάζοντας το νευρωνικό ταξινομητή Kohonen Self-Organized Feature Map (KSOFM) και τον ασαφή ταξινομητή Gustafson - Kessel (GK). Αρχικά, οι χρωματικές αποχρώσεις μειώνονται με τον K ...
Στα τελευταία χρόνια υπάρχει ταχεία ανάπτυξη του μεγέθους των πολυμεσικών δεδομένων λόγω της ευκολίας δημιουργίας τους. Ένα από τα κυριότερα συστατικά των πολυμεσικών δεδομένων είναι οι ψηφιακές εικόνες. Καθημερινά, παράγονται giga-bytes εικόνων, με αποτέλεσμα, να δημιουργούνται τεράστια μεγέθη πληροφορίας. Η αποτελεσματική εκμετάλλευση όλης αυτής της πληροφορίας απαιτεί έξυπνες τεχνικές και νέα τεχνολογία. Για το σκοπό αυτό, η αποθήκευση των πολυμεσικών πληροφοριών πρέπει να οργανωθεί με τέτοιον τρόπο ώστε να επιτρέπει την αποδοτική πλοήγηση, αναζήτηση και ανάκτησή τους. Η παρούσα διατριβή παρουσιάζει πέντε τεχνικές που βελτιώνουν τα συστήματα ανάκτησης εικόνων με βάση το περιεχόμενό τους. Η πρώτη τεχνική μειώνει τις χρωματικές αποχρώσεις μιας εικόνας με την χρησιμοποίηση στατιστικών συστάδων (Clustering) συνδυάζοντας το νευρωνικό ταξινομητή Kohonen Self-Organized Feature Map (KSOFM) και τον ασαφή ταξινομητή Gustafson - Kessel (GK). Αρχικά, οι χρωματικές αποχρώσεις μειώνονται με τον KSOFM και οι εξαγόμενες χρωματικές κλάσεις του αρχικοποιούν τον ασαφή αλγόριθμο GK. Τα τελικά αποτελέσματα του GK ορίζουν και τη χρωματική παλέτα της τελικής εικόνας. Η προτεινόμενη τεχνική έχει την ικανότητα να διατηρεί τα κύρια χρώματα μιας εικόνας ακόμα και αν το πλήθος αυτών είναι πολύ μικρό. Επίσης ενοποιεί περιοχές που έχουν παρόμοια χρώματα. Με βάση τα παραπάνω, μπορεί να θεωρηθεί ως μία ισχυρή τεχνική κατάτμησης έγχρωμης ψηφιακής εικόνας. Η δεύτερη μέθοδος που προτείνεται ασχολείται με την ανάδραση με βάση τη συνάφεια, η οποία στηρίζεται σε τέσσερις περιγραφείς όμοιους με αυτούς του MPEG-7. Πολλές φορές ο χρήστης δεν ξέρει τι εικόνα ψάχνει ακριβώς αλλά έχει μία γενική ιδέα. Οπότε θα πρέπει το σύστημα να παρέχει στον χρήστη ένα τρόπο αλληλοεπίδρασης με αυτό. Αρχικά παρέχονται στο χρήστη το αρχικό σύνολο των αποτελεσμάτων της ανάκτησης και στη συνέχεια ο χρήστης μπορεί να επιλέξει από αυτά εκείνα που τον ενδιαφέρουν. Το Σύστημα Ανάκτησης χρησιμοποιεί αυτήν την πληροφορία ώστε να βελτιώσει τα αρχικά αποτελέσματα. Αυτό πραγματοποιείται με τον μετασχηματισμό του διανύσματος του περιγραφέα των εικόνων σε ένα άλλο διάνυσμα με βάση τα εσωτερικά χαρακτηριστικά του. Σε αυτόν θα αποθηκεύεται η πληροφορία που θα δίνεται από τον χρήστη ενώ οι αρχικές τιμές που περιέχει είναι οι τιμές του περιγραφέα της εικόνας - ερώτημα. Όταν ο χρήστης επιλέγει μία εικόνα από τα αποτελέσματα της αρχικής ανάκτησης, το διάνυσμα του περιγραφέα της αλλάζει τις τιμές του μετασχηματισμένου διανύσματος. Τα καινούργια αποτελέσματα ανάκτησης εικόνων δημιουργούνται θεωρώντας ως περιγραφέα-ερώτημα αυτόν που είναι αποθηκευμένος στο μετασχηματισμένο διάνυσμα. Η προτεινόμενη τεχνική βελτιώνει τα αποτελέσματα της αρχικής ανάκτησης με μικρό ii υπολογιστικό κόστος. Η τρίτη τεχνική ασχολείται με τον εντοπισμό του κειμένου σε εικόνες - έγγραφα. Δηλαδή, προτείνεται μία μέθοδος εντοπισμού ομοιόμορφου κειμένου, η οποία στηρίζεται στα συνδεδεμένα στοιχεία για τον εντοπισμό των αντικειμένων, στα δομικά συστατικά των εγγράφων για τη δημιουργία του περιγραφέα των αντικειμένων και στα Support Vector Machines για την επιλογή αυτών που θεωρούνται ως κείμενο. Επιπλέον έχει την ικανότητα να προσαρμόζεται στις ιδιαιτερότητες της κάθε βάσης εγγράφων - εικόνων.
περισσότερα
Περίληψη σε άλλη γλώσσα
inside the image. From every such block a descriptor is extracted which it is constructed from a set of document structures elements. Also, the length of the descriptor can be reduced from the 510 initial DSEs to any number using an algorithm called Feature Standard Deviation Analysis of Structure Elements (FSDASE). Finally, the output of the SVM is using the descriptors to classify each block as text or not and extract those blocks from the original image or locate them on it. The proposed technique has the ability to adapt to the peculiarities of each document images database since the features adjust to it. It provides, also, the ability to increase or decrease text localization speed by the manipulation of the block descriptor length. The fourth technique encounters the document retrieval problem using a word matching procedure. This technique performs the word matching directly in the document images bypassing OCR and using word-images as queries. The entire system consists of the ...
inside the image. From every such block a descriptor is extracted which it is constructed from a set of document structures elements. Also, the length of the descriptor can be reduced from the 510 initial DSEs to any number using an algorithm called Feature Standard Deviation Analysis of Structure Elements (FSDASE). Finally, the output of the SVM is using the descriptors to classify each block as text or not and extract those blocks from the original image or locate them on it. The proposed technique has the ability to adapt to the peculiarities of each document images database since the features adjust to it. It provides, also, the ability to increase or decrease text localization speed by the manipulation of the block descriptor length. The fourth technique encounters the document retrieval problem using a word matching procedure. This technique performs the word matching directly in the document images bypassing OCR and using word-images as queries. The entire system consists of the Offline and the Online procedures. In the Offline procedure which it is transparent to the user, the document images are analyzed and the results are stored in a database. This procedure consists of three main stages. Initially, the document images pass the preprocessing stage which consists of a Median filter, in order to face the existence of noise e.g in case of historical or badly maintained documents, and the Otsu binarization method. The word segmentation stage follows the preprocessing stage. Its primary goal is to detect the word limits. This is accomplished by using the Connected Components Labeling and Filtering method. A set of features, capable of capturing the word shape and discard detailed differences due to noise or font differences are used for the word-matching process. These features are: Width to Height Ratio, Word Area Density, Center of Gravity, Vertical Projection, Top - Bottom Shape Projections, Upper Grid Features, Down Grid Features. Finally, these features create a 93-dimention vector that is the word descriptor and it is stored in a database. In the Online procedure, the user enters a query word and the proposed system creates an image from it with font height equal to the average height of all the word-boxes obtained through Offline operation. Then, the system calculates the descriptor of the query word image. Finally, the system using the Minkowski L1 distance presents the documents that contain the words which their descriptors are closest to the query descriptor. The experimental results show that the proposed system performs better than a commercial OCR package. The last method involves a MPEG-like compact shape descriptor that contains conventional contour and region shape features with a wide applicability from any arbitrary shape to document retrieval through word spotting. It is called Compact Shape Portrayal Descriptor and its computation can be easily parallize as each feature can be calculated separately. These features are the Width to Height Ratio, Vertical - Horizontal Projections, Top - Bottom Shape Projections which construct a 41 dimension descriptor.
περισσότερα