Αναγνώριση χαρακτήρων (OCR) ιστορικών εγγράφων: χειρόγραφα, καλλιγραφικά και τυπωμένα έγγραφα

Ο όρος «αναγνώριση χαρακτήρων» αφορά στην ‘ανάγνωση’ κειμένου από τον υπολογιστή ξεκινώντας από μία εικόνα κειμένου και στην μετατροπή της σε ηλεκτρονικό κείμενο. Στα πλαίσια της διδακτορικής διατριβής μελετήθηκε το στάδιο της κατάτμησης των χειρογράφων και αναπτύχθηκαν νέες μέθοδοι για την κατάτμηση τους στα βασικά στοιχεία που τα αποτελούν, δηλαδή στις γραμμές κειμένου και στις λέξεις. Αναφορικά με το πρόβλημα της κατάτμησης ενός εγγράφου σε γραμμές κειμένου, αναπτύχθηκε μία νέα μεθοδολογία η οποία στηρίζεται στον μετασχηματισμό Hough. Η καινοτομία της προτεινόμενης μεθοδολογίας συνίσταται στα εξής: (ι) εφαρμογή ενός τροποποιημένου μετασχηματισμού Hough στον οποίο η ψηφοφορία στον πίνακα συσσώρευσης γίνεται χρησιμοποιώντας σημεία από blocks ίσου πλάτους τα οποία προκύπτουν από διάσπαση των συνδεδεμένων τμημάτων (connected components), (ii) η διαμέριση του χώρου των συνδεδεμένων τμημάτων σε 3 υποχώρους τα συνδεδεμένα τμήματα των οποίων υπόκεινται σε διαφορετική επεξεργασία και (iii) αποδοτικός διαχωρισμός τμημάτων γειτονικών γραμμών που εφάπτονται. Αναφορικά με την κατάτμηση εικόνας εγγράφου στις λέξεις που την αποτελούν, αναπτύχθηκαν δύο μεθοδολογίες. Στην πρώτη μεθοδολογία, η απόφαση αν ένα κενό είναι μεταξύ λέξεων ή μεταξύ χαρακτήρων σε ίδια λέξη στηρίζεται στον προσδιορισμό ενός κατωφλίου το οποίο υπολογίζεται χρησιμοποιώντας βασικά γεωμετρικά χαρακτηριστικά της εικόνας. Σύμφωνα με τη δεύτερη μεθοδολογία, το πρόβλημα αυτό αντιμετωπίζεται χρησιμοποιώντας μία μέθοδο μη καθοδηγούμενης ομαδοποίησης (unsupervised clustering), που βασίζεται σε μοντελοποίηση με χρήση μίξης Gaussian κατανομών (Gaussian Mixture Modeling). Πειραματικά αποτελέσματα έδειξαν ότι οι τεχνικές αυτές έχουν καλύτερες επιδόσεις, σε σχέση με άλλες τεχνικές της βιβλιογραφίας. Επίσης, αναπτύχθηκε μία νέα μεθοδολογία αποτίμησης των μεθοδολογιών κατάτμησης λέξεων, δύο σταδίων. Η συγκεκριμένη μεθοδολογία αντιμετωπίζει το στάδιο υπολογισμού της απόστασης γειτονικών τμημάτων και το στάδιο ταξινόμησης των αποστάσεων ανεξάρτητα, σε αντίθεση με τις υπάρχουσες μεθοδολογίες αποτίμησης των μεθοδολογιών κατάτμησης λέξεων.

περισσότερα

Περίληψη σε άλλη γλώσσα

“Character recognition” refers to the procedure of ‘reading’ text using a computer, taking as input a document image as well as to the conversion of the document image to electronic text. This dissertation focuses on the segmentation of handwritten document images to the basic semantic units that comprise them, namely text lines and words. Concerning the problem of text line segmentation, we developed a new methodology whose novelties are: (i) an efficient block-based Hough transform in which voting occurs on the basis of equally spaced blocks after splitting of the connected components’ bounding box; (ii) a partitioning of the connected component domain into three spatial sub-domains, for which a different processing strategy of the corresponding connected components can be employed; and (iii) the efficient separation of vertically connected parts of text lines. The proposed text line segmentation methodology has been evaluated against other state-of-the-art text line segmentation met ...

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (11.11 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/23752
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/23752
ND	23752
Εναλλακτικός τίτλος	Character recognition in historical documents: Handwritten, cursive and printed documents
Συγγραφέας	Λουλούδης, Γεώργιος (Πατρώνυμο: Εμμανουήλ)
Ημερομηνία	2009
Ίδρυμα	Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (ΕΚΠΑ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής και Τηλεπικοινωνιών
Εξεταστική επιτροπή	Χαλάτσης Κωνσταντίνος Καλουπτσίδης Νικόλαος Σαγκριώτης Εμμανουήλ Θεοδωρίδης Σέργιος Καραμπογιάς Σεραφείμ Βασιλάκης Κωνσταντίνος Γάτος Βασίλειος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά	Κατάτμηση εικόνων χειρογράφων; Κατάτμηση γραμμών κειμένου; Κατάτμηση λέξεων; Μετασχηματισμός Hough; Αποτίμηση της κατάτμησης λέξεων
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	147 σ., εικ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Γεώργιος Μοσχάμπαρ: ο βασικός αντιρρητικός θεολόγος της πρώιμης παλαιολογείου περιόδου: βίος και έργο

Η αντιρρητική φιλολογία στην Κρήτη κατά το Β' μισό του ΙΔ' αιώνα

Η σύνοδος Φερράρας - Φλωρεντίας από της υπογραφής του όρου ενώσεως έως και της καταργήσεως αυτού: μελέτη φιλολογική και ιστορική

Νικόλαος ο εξ Υδρούντος: βίος - έργα και η κατά Λατίνων διδασκαλία του

Ο ρόλος της εκκλησίας στην εκπαίδευση στα Δωδεκάνησα κατά την τουρκική κατοχή

Το υμνογραφικό έργο του Μάρκου Ευγενικού

ΤΑ ΜΑΘΗΤΑΡΙΑ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΣΧΟΛΕΙΩΝ ΤΗΣ ΤΟΥΡΚΟΚΡΑΤΙΑΣ. ΔΙΔΑΣΚΟΜΕΝΑ ΚΕΙΜΕΝΑ, ΣΧΟΛΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ, ΔΙΔΑΚΤΙΚΕΣ ΜΕΘΟΔΟΙ. ΣΥΜΒΟΛΗ ΣΤΗΝ ΙΣΤΟΡΙΑ ΤΗΣ ΝΕΟΕΛΛΗΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Ο λόγιος Ιωάννης Κυπαρισσιώτης και το τρίτο βιβλίο της πραγματείας του «Κατὰ τῆς τῶν Παλαμιτῶν Αἱρέσεως»: κριτική έκδοση - μετάφραση - σχολιασμός

Μάρκος Μοναχός (ΙΓ' αί.): βίος και έργο

Νικηφόρος Χρυσοβέργης: βίος και έργο: μέσα 12ου – αρχές 13ου αι.

"Αναγνώριση χαρακτήρων (OCR) ιστορικών εγγράφων: χειρόγραφα, καλλιγραφικά και τυπωμένα έγγραφα"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .