Ανάκτηση εγγράφων βάσει περιεχομένου και mpeg-7 μεταδομένων

Στα τελευταία χρόνια υπάρχει ταχεία ανάπτυξη του μεγέθους των πολυμεσικών δεδομένων λόγω της ευκολίας δημιουργίας τους. Ένα από τα κυριότερα συστατικά των πολυμεσικών δεδομένων είναι οι ψηφιακές εικόνες. Καθημερινά, παράγονται giga-bytes εικόνων, με αποτέλεσμα, να δημιουργούνται τεράστια μεγέθη πληροφορίας. Η αποτελεσματική εκμετάλλευση όλης αυτής της πληροφορίας απαιτεί έξυπνες τεχνικές και νέα τεχνολογία. Για το σκοπό αυτό, η αποθήκευση των πολυμεσικών πληροφοριών πρέπει να οργανωθεί με τέτοιον τρόπο ώστε να επιτρέπει την αποδοτική πλοήγηση, αναζήτηση και ανάκτησή τους. Η παρούσα διατριβή παρουσιάζει πέντε τεχνικές που βελτιώνουν τα συστήματα ανάκτησης εικόνων με βάση το περιεχόμενό τους. Η πρώτη τεχνική μειώνει τις χρωματικές αποχρώσεις μιας εικόνας με την χρησιμοποίηση στατιστικών συστάδων (Clustering) συνδυάζοντας το νευρωνικό ταξινομητή Kohonen Self-Organized Feature Map (KSOFM) και τον ασαφή ταξινομητή Gustafson - Kessel (GK). Αρχικά, οι χρωματικές αποχρώσεις μειώνονται με τον KSOFM και οι εξαγόμενες χρωματικές κλάσεις του αρχικοποιούν τον ασαφή αλγόριθμο GK. Τα τελικά αποτελέσματα του GK ορίζουν και τη χρωματική παλέτα της τελικής εικόνας. Η προτεινόμενη τεχνική έχει την ικανότητα να διατηρεί τα κύρια χρώματα μιας εικόνας ακόμα και αν το πλήθος αυτών είναι πολύ μικρό. Επίσης ενοποιεί περιοχές που έχουν παρόμοια χρώματα. Με βάση τα παραπάνω, μπορεί να θεωρηθεί ως μία ισχυρή τεχνική κατάτμησης έγχρωμης ψηφιακής εικόνας. Η δεύτερη μέθοδος που προτείνεται ασχολείται με την ανάδραση με βάση τη συνάφεια, η οποία στηρίζεται σε τέσσερις περιγραφείς όμοιους με αυτούς του MPEG-7. Πολλές φορές ο χρήστης δεν ξέρει τι εικόνα ψάχνει ακριβώς αλλά έχει μία γενική ιδέα. Οπότε θα πρέπει το σύστημα να παρέχει στον χρήστη ένα τρόπο αλληλοεπίδρασης με αυτό. Αρχικά παρέχονται στο χρήστη το αρχικό σύνολο των αποτελεσμάτων της ανάκτησης και στη συνέχεια ο χρήστης μπορεί να επιλέξει από αυτά εκείνα που τον ενδιαφέρουν. Το Σύστημα Ανάκτησης χρησιμοποιεί αυτήν την πληροφορία ώστε να βελτιώσει τα αρχικά αποτελέσματα. Αυτό πραγματοποιείται με τον μετασχηματισμό του διανύσματος του περιγραφέα των εικόνων σε ένα άλλο διάνυσμα με βάση τα εσωτερικά χαρακτηριστικά του. Σε αυτόν θα αποθηκεύεται η πληροφορία που θα δίνεται από τον χρήστη ενώ οι αρχικές τιμές που περιέχει είναι οι τιμές του περιγραφέα της εικόνας - ερώτημα. Όταν ο χρήστης επιλέγει μία εικόνα από τα αποτελέσματα της αρχικής ανάκτησης, το διάνυσμα του περιγραφέα της αλλάζει τις τιμές του μετασχηματισμένου διανύσματος. Τα καινούργια αποτελέσματα ανάκτησης εικόνων δημιουργούνται θεωρώντας ως περιγραφέα-ερώτημα αυτόν που είναι αποθηκευμένος στο μετασχηματισμένο διάνυσμα. Η προτεινόμενη τεχνική βελτιώνει τα αποτελέσματα της αρχικής ανάκτησης με μικρό ii υπολογιστικό κόστος. Η τρίτη τεχνική ασχολείται με τον εντοπισμό του κειμένου σε εικόνες - έγγραφα. Δηλαδή, προτείνεται μία μέθοδος εντοπισμού ομοιόμορφου κειμένου, η οποία στηρίζεται στα συνδεδεμένα στοιχεία για τον εντοπισμό των αντικειμένων, στα δομικά συστατικά των εγγράφων για τη δημιουργία του περιγραφέα των αντικειμένων και στα Support Vector Machines για την επιλογή αυτών που θεωρούνται ως κείμενο. Επιπλέον έχει την ικανότητα να προσαρμόζεται στις ιδιαιτερότητες της κάθε βάσης εγγράφων - εικόνων.

περισσότερα

Περίληψη σε άλλη γλώσσα

inside the image. From every such block a descriptor is extracted which it is constructed from a set of document structures elements. Also, the length of the descriptor can be reduced from the 510 initial DSEs to any number using an algorithm called Feature Standard Deviation Analysis of Structure Elements (FSDASE). Finally, the output of the SVM is using the descriptors to classify each block as text or not and extract those blocks from the original image or locate them on it. The proposed technique has the ability to adapt to the peculiarities of each document images database since the features adjust to it. It provides, also, the ability to increase or decrease text localization speed by the manipulation of the block descriptor length. The fourth technique encounters the document retrieval problem using a word matching procedure. This technique performs the word matching directly in the document images bypassing OCR and using word-images as queries. The entire system consists of the Offline and the Online procedures. In the Offline procedure which it is transparent to the user, the document images are analyzed and the results are stored in a database. This procedure consists of three main stages. Initially, the document images pass the preprocessing stage which consists of a Median filter, in order to face the existence of noise e.g in case of historical or badly maintained documents, and the Otsu binarization method. The word segmentation stage follows the preprocessing stage. Its primary goal is to detect the word limits. This is accomplished by using the Connected Components Labeling and Filtering method. A set of features, capable of capturing the word shape and discard detailed differences due to noise or font differences are used for the word-matching process. These features are: Width to Height Ratio, Word Area Density, Center of Gravity, Vertical Projection, Top - Bottom Shape Projections, Upper Grid Features, Down Grid Features. Finally, these features create a 93-dimention vector that is the word descriptor and it is stored in a database. In the Online procedure, the user enters a query word and the proposed system creates an image from it with font height equal to the average height of all the word-boxes obtained through Offline operation. Then, the system calculates the descriptor of the query word image. Finally, the system using the Minkowski L1 distance presents the documents that contain the words which their descriptors are closest to the query descriptor. The experimental results show that the proposed system performs better than a commercial OCR package. The last method involves a MPEG-like compact shape descriptor that contains conventional contour and region shape features with a wide applicability from any arbitrary shape to document retrieval through word spotting. It is called Compact Shape Portrayal Descriptor and its computation can be easily parallize as each feature can be calculated separately. These features are the Width to Height Ratio, Vertical - Horizontal Projections, Top - Bottom Shape Projections which construct a 41 dimension descriptor.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (9.58 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/18470
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/18470
ND	18470
Συγγραφέας	Ζαγόρης, Κωνσταντίνος
Ημερομηνία	2009
Ίδρυμα	Δημοκρίτειο Πανεπιστήμιο Θράκης (ΔΠΘ). Πολυτεχνική Σχολή. Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Εξεταστική επιτροπή	Παπαμάρκος Νικόλαος Ανδρεάδης Ιωάννης Σταυραΐτης Αθανάσιος Χαμζάς Αθανάσιος Καράκος Χριστόδουλος Συρακούλης Γεώργιος Εμμανουηλίδης Χρήστος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Ανάκτηση εικόνων; Ανάκτηση εγγράφων; Μείωση χρωματικών αποχρώσεων; Ανάδραση με βάση τη συνάφεια; Νευρω - ασαφής ταξινομητής
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	108 σ., εικ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Novel Methods in H.264/AVC: Inter prediction, data hiding, bit rate transcoding

Τεχνικές υπολογιστικής όρασης και μηχανικής μάθησης για την παρακολούθηση και ταξινόμηση ανθρωποκεντρικών δεδομένων

Ανάπτυξη μεθοδολογιών αναγνώρισης και παρακολούθησης προτύπων σε ψηφιακή εικόνα

Non-parametric Bayesian approaches to deep neural networks

Νέα στατιστικά μοντέλα εικόνας για την ανίχνευση και σχεδίαση υδατοσημάτων

Τεχνικές μηχανικής μάθησης για διαχείριση γνώσης σε συστήματα ανάκτησης εικόνων

Ανάπτυξη και υλοποίηση νέων τεχνικών εντοπισμού αυτόνομων ρομποτικών συστημάτων για εφαρμογές πραγματικού χρόνου

Ανάπτυξη και υλοποίηση νέων τεχνικών ανάκτησης εικόνων με τη χρήση πληροφορίας χρώματος

Advanced techniques in digital watermarking and data hiding for still images

Wavelet-based algorithms for approximate processing in the big data era

"Ανάκτηση εγγράφων βάσει περιεχομένου και mpeg-7 μεταδομένων"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .