Περίληψη
Αντικείμενο της παρούσας διδακτορικής διατριβής είναι η μελέτη των υφιστάμενων και η υλοποίηση νέων τεχνικών επεξεργασίας ψηφιακών εγγράφων. Ο σκοπός της επεξεργασίας ψηφιακών εγγράφων είναι η εξαγωγή και εκμετάλλευση της πληροφορίας που αυτά περιέχουν (κείμενο, εικόνες, γραφήματα κ.τ.λ.]. Αποτελεί μία ιδιαίτερα ενεργή ερευνητική περιοχή με πολλές και σημαντικές εφαρμογές όπως για παράδειγμα η οπτική αναγνώριση χαρακτήρων, η δημιουργία ψηφιακών αρχείων, η αποκατάσταση κατεστραμμένων ή σημαντικών ιστορικών εγγράφων, η ανάκτηση από βάσεις δεδομένων, η συμπίεση και μετάδοση κ.τ.λ. Συνολικά, στα πλαίσια της διατριβής έχουν αναπτυχθεί και υλοποιηθεί τέσσερις τεχνικές που ανήκουν στη γενική ερευνητική περιοχή της επεξεργασίας ψηφιακών εγγράφων. Οι τρεις πρώτες στοχεύουν στην εξαγωγή της πληροφορίας του κειμένου από έγχρωμα έγγραφα πολύπλοκης δομής (π.χ. εξώφυλλα βιβλίων και περιοδικών). Η εικόνα που προκύπτει ως το αποτέλεσμα της πρώτης τεχνικής αποτελεί την είσοδο για τη δεύτερη κάτι που επ ...
Αντικείμενο της παρούσας διδακτορικής διατριβής είναι η μελέτη των υφιστάμενων και η υλοποίηση νέων τεχνικών επεξεργασίας ψηφιακών εγγράφων. Ο σκοπός της επεξεργασίας ψηφιακών εγγράφων είναι η εξαγωγή και εκμετάλλευση της πληροφορίας που αυτά περιέχουν (κείμενο, εικόνες, γραφήματα κ.τ.λ.]. Αποτελεί μία ιδιαίτερα ενεργή ερευνητική περιοχή με πολλές και σημαντικές εφαρμογές όπως για παράδειγμα η οπτική αναγνώριση χαρακτήρων, η δημιουργία ψηφιακών αρχείων, η αποκατάσταση κατεστραμμένων ή σημαντικών ιστορικών εγγράφων, η ανάκτηση από βάσεις δεδομένων, η συμπίεση και μετάδοση κ.τ.λ. Συνολικά, στα πλαίσια της διατριβής έχουν αναπτυχθεί και υλοποιηθεί τέσσερις τεχνικές που ανήκουν στη γενική ερευνητική περιοχή της επεξεργασίας ψηφιακών εγγράφων. Οι τρεις πρώτες στοχεύουν στην εξαγωγή της πληροφορίας του κειμένου από έγχρωμα έγγραφα πολύπλοκης δομής (π.χ. εξώφυλλα βιβλίων και περιοδικών). Η εικόνα που προκύπτει ως το αποτέλεσμα της πρώτης τεχνικής αποτελεί την είσοδο για τη δεύτερη κάτι που επίσης ισχύει και μεταξύ της δεύτερης και τρίτης τεχνικής. Αν και ο κύριος σκοπός ήταν η εφαρμογή των τεχνικών σε έγχρωμα έγγραφα, η εφαρμογή τους σε έγγραφα με αποχρώσεις του γκρι είναι επίσης εφικτή. Η τέταρτη τεχνική αναπτύχθηκε στα πλαίσια του ερευνητικού έργου "POLYTIMO" και αφορά την κατάτμηση τυπωμένων ιστορικών εγγράφων. Στόχος της πρώτης τεχνικής είναι η τμηματοποίηση έγχρωμων εγγράφων με τρόπο που να επιτρέπει τη χρήση του αποτελέσματος από τεχνικές εξαγωγής της πληροφορίας του κειμένου, για εντοπισμό δηλαδή περιοχών κειμένου ή εξαγωγή των χαρακτήρων με τη μορφή δυαδικής εικόνας. Η τμηματοποίηση υλοποιείται μέσω της διαδικασίας μείωσης χρωμάτων σε κατάλληλο αριθμό ώστε να ομοιογενοποιούνται τα αντικείμενα του εγγράφου και να είναι δυνατή η εξαγωγή τους ως συνδεδεμένα αντικείμενα. Προτείνεται η προεπεξεργασία της εικόνας με τη χρήση ενός φίλτρου προσαρμοστικής εξομάλυνσης ώστε να βελτιωθεί η ποιότητα του εγγράφου και να αφαιρεθεί ένα μέρος του θορύβου και κυρίως του θορύβου υφής που προκύπτει μέσω της διαδικασίας ψηφιοποίησης. Ακολούθως, με μία πρωτότυπη μέθοδο δειγματοληψίας προσεγγίζουμε τις χρωματικές κλάσεις μέσα στον τρισδιάστατο χρωματικό χώρο RGB και με τη χρήση του αλγορίθμου μετατόπισης μέσης τιμής προσεγγίζονται τα τελικά χρωματικά κέντρα. Η δεύτερη τεχνική χρησιμοποιεί το αποτέλεσμα της πρώτης για να εντοπίσει τις περιοχές του κειμένου, να οριοθετήσει δηλαδή τις περιοχές του εγγράφου μέσα στις οποίες υπάρχει κείμενο. Υιοθετείται η προσέγγιση της ανάλυσης των συνδεδεμένων αντικειμένων, κάτι που επιτρέπει την εκτέλεση της τεχνικής σε σχετικά μικρό χρόνο σε σχέση με τη δεύτερη προσέγγιση που είναι η χρήση της πληροφορίας της υφής. Για κάθε χρωματικό επίπεδο που έχει προκύψει από τη διαδικασία της μείωσης των χρωμάτων ορίζεται μια δυαδική εικόνα και σε κάθε τέτοια εικόνα εφαρμόζεται η τεχνική. Στο τελικό στάδιο, συνδυάζονται όλα τα επιμέρους αποτελέσματα για να εξαχθούν οι τελικές περιοχές κειμένου. Η συγκεκριμένη τεχνική έχει την ικανότητα να ανιχνεύει κείμενο οριζόντιας αλλά και κάθετης διεύθυνσης ακόμα και όταν οι δύο αυτοί τύποι κειμένου συνυπάρχουν μέσα στο ίδιο έγγραφο. Επίσης, είναι δυνατή η ανίχνευση κειμένου που αποκλίνει από την οριζόντια και κάθετη διεύθυνση κατά 15 μοίρες. Η τρίτη τεχνική έχει ως στόχο τη δυαδικοποίηση έγχρωμων ψηφιακών εγγράφων. Χρησιμοποιούνται οι περιοχές κειμένου που εντόπισε η δεύτερη τεχνική και πάνω σε αυτές εφαρμόζονται τεχνικές δυαδικοποίησης έτσι ώστε το τελικό έγγραφο να αποτελείται από χαρακτήρες μαύρου χρώματος σε άσπρο φόντο, ανεξάρτητα από τις αρχικές αποχρώσεις κάθε περιοχής κειμένου. Η λογική αυτής της τεχνικής είναι η εκμετάλλευση της τοπικής πληροφορίας που μας προσφέρει το αποτέλεσμα του εντοπισμού των περιοχών κειμένου. Το κύριο πλεονέκτημα σε αυτήν την περίπτωση είναι η μεγαλύτερη αντίθεση που υπάρχει μεταξύ κειμένου και του τοπικού φόντου, η πολύ καλύτερη διάκριση που υπάρχει δηλαδή μεταξύ της κλάσης του χρώματος του κειμένου και των χρωμάτων του τοπικού φόντου. Τέλος, η τέταρτη τεχνική εφαρμόζεται σε δυαδικά έγγραφα που έχουν προκύψει από ψηφιοποίηση ιστορικών βιβλίων. Στόχος είναι η κατάτμησή τους σε τρία επίπεδα : γραμμές κειμένου, λέξεις και χαρακτήρες. Τα αποτελέσματα της τεχνικής μπορούν να χρησιμοποιηθούν για την ανάκτηση των εγγράφων από βάσεις δεδομένων καθώς και για τη μετατροπή τους σε ASCII χαρακτήρες μέσω ενός συστήματος αυτόματης αναγνώρισης χαρακτήρων. Στην τεχνική αυτή, προτείνεται η χρήση ενός τροποποιημένου αλγόριθμου εξομάλυνσης κατά μήκος διαδρομής ώστε να ξεπεραστούν οι αδυναμίες του κλασσικού αλγόριθμου RLSA, στοιχείο που αποτελεί και την κύρια συνεισφορά της τεχνικής. […]
περισσότερα
Περίληψη σε άλλη γλώσσα
This PhD dissertation presents new techniques for digital document processing. The goal of document processing is the extraction and the exploitation of the information that documents contain (text, images, graphical elements etc.). Document Image Processing (DIP) is a very active research field with many important applications. Optical Character Recognition (OCR), digital archives creation, the restoration of historical or other important documents, document image retrieval, compression and transmission, etc. are some examples of DIP applications. Four new DIP related techniques are presented. The first three proposed techniques aim to the extraction of text information from complex color documents such as cover books or magazine covers. The result of the first technique is used as input image from the second technique and the result of the second technique is used as input from the third technique. Although, these three techniques are applied on color documents, gray scale document i ...
This PhD dissertation presents new techniques for digital document processing. The goal of document processing is the extraction and the exploitation of the information that documents contain (text, images, graphical elements etc.). Document Image Processing (DIP) is a very active research field with many important applications. Optical Character Recognition (OCR), digital archives creation, the restoration of historical or other important documents, document image retrieval, compression and transmission, etc. are some examples of DIP applications. Four new DIP related techniques are presented. The first three proposed techniques aim to the extraction of text information from complex color documents such as cover books or magazine covers. The result of the first technique is used as input image from the second technique and the result of the second technique is used as input from the third technique. Although, these three techniques are applied on color documents, gray scale document images can also be used. The fourth proposed technique has been developed during the "POLYTIMO" research project and the goal is the segmentation of machine-printed historical documents. The first technique is a color segmentation procedure and the result can be used by any text information extraction method in order to locate the text areas or to extract the character components as a binary image result. The segmentation of the document is performed through a color reduction technique. The resulted number of colors is small so the document elements can be extracted as connected components. It is proposed that the initial image is pre-processed with an edge preserving smoothing filter in order to remove the noise, especially the texture type noise that results during the digitization process. Then, the image is sub-sampled with a new technique which has the ability to approximate the RGB color distribution. The last step utilizes the mean shift algorithm to locate the final color centers which are used to produce the final color reduction result. The result of the first technique is used by the second technique in order to locate the text areas, that is to border the areas in which homogeneous text exists. The method adopts the connected component based approach which is much faster compared with the texture based approach. For every color plane of the color reduced image, a binary image is created and on each one of these binary images, text is located. The final result is extracted by the superimposition of all text localization results. The proposed technique has the ability to locate horizontal and vertical text, even if these two text types exist in the same document image. The third technique is a color document binarization method. The text areas extracted from the second technique are used here and on each one, binarization techniques are applied. The resulted image consists of black pixel characters on white background. The advantage of processing independently the text areas is the use of local information instead of using global information. Local information of text areas provides more contrast between characters and background so these two elements can be separated more easily. Finally, the fourth technique is applied on binary document images which resulted from the digitization of historical books. The purpose is their segmentation at three levels, text lines, words and characters. The segmentation results can be used for document image retrieval and their transformation into editable electronic text through an OCR system. The main contribution here is that a modified Run Length Smoothing Algorithm (RLSA) is proposed, the ARLSA (Adaptive Run Length Smoothing Algorithm) in order to overcome its drawbacks when applied to this type of document images.
περισσότερα