Κατηγοριοποίηση και τμηματοποίηση κειμένων με χρήση μεθόδων υπολογιστικής νοημοσύνης

Η παρούσα διδακτορική διατριβή πραγματεύεται την ανάπτυξη υπολογιστικών μεθόδων για την εμβάθυνση στο περιεχόμενο των κειμένων και την ανάδειξη του τρόπου δόμησής τους (με την εύρεση των υποθεμάτων από τα οποία αποτελούνται) άρα και κατ’ επέκταση τη βελτίωση πρόσβασης σε πληροφορία με τη βοήθεια γλωσσικής τεχνολογίας. Η εν λόγω διατριβή αφορά την χρήση του θησαυρού όρων Wordnet για την ακριβέστερη απόδοση της έννοιας των λέξεων μέσα στο περιεχόμενο στο οποίο απαντώνται, αλλά και την αποτελεσματικότερη πρόσβαση στην πληροφορία με την τμηματοποίηση μεγάλης έκτασης κειμένων σε μικρότερα τμήματα καθένα από τα οποία αναφέρεται σε ένα συγκεκριμένο θέμα. Μια τέτοιου είδους βελτιωμένη πρόσβαση είναι χρήσιμη στην ολοένα αυξανόμενη πληροφορία που απαντάται στις μέρες μας κυρίως στο Διαδίκτυο. Μετά από επισκόπηση των μοντέλων και μεθόδων για την εύρεση της εννοιολογικής δομής των κειμένων και τη βελτίωση πρόσβασης σε πληροφορία προτείνονται τρία μοντέλα. Το πρώτο από αυτά ακολουθεί την προσέγγιση της Mηχανικής Mάθησης και πραγματοποιεί κατηγοριοποίηση κειμένων με την βοήθεια της έννοιας της κάθε λέξης -όπως αυτή προσδιορίζεται από το περιεχόμενο μέσα στο οποίο αυτή απαντάται και όπως αυτή δίνεται από τον θησαυρού όρων Wordnet - και όχι των αυτούσιων λέξεων του κειμένου. Το δεύτερο μοντέλο πραγματεύεται την τμηματοποίηση κειμένων με την βοήθεια τεχνικών κατηγοριοποίησης κειμένων. Τέλος, το τελευταίο προτεινόμενο μοντέλο προτείνει και υλοποιεί ένα μοντέλο τμηματοποίησης κειμένων μεγάλης έκτασης σε μικρότερα τμήματα καθένα από τα οποία παρουσιάζει ισχυρή συνάφεια και συνοχή σε τοπικό επίπεδο. Η εν λόγω τμηματοποίηση πραγματοποιείται ως συνδυασμός τεχνικών εύρεσης της ομοιότητας μεταξύ των διαφόρων μερών του κειμένου και αυτόματου καθορισμού των ορίων μεταξύ των τμημάτων. Η επιτυχία και των τριών μοντέλων επιβεβαιώνεται από την εφαρμογή τους σε αντίστοιχα σώματα κειμένων με πιο σημαντικό το σώμα κειμένων το οποίο απαρτίζεται από ελληνικά κείμενα. Η σπουδαιότητα των εν λόγω μοντέλων έγκειται στο γεγονός ότι αποτελούν ισχυρά βοηθήματα σε ένα ευρύ πεδίο εφαρμογών όπως η ακριβέστερη ανάκτηση και εξόρυξη πληροφορίας, η εξαγωγή περιλήψεων, η θεματική κατηγοριοποίηση κειμένων κλπ, τόσο σε αγγλικά όσο και σε ελληνικά κείμενα.

περισσότερα

Περίληψη σε άλλη γλώσσα

This dissertation deals with the development of computational methods which penetrate into the content of texts and reveal their structure, as the result of finding their topics and subtopics. The benefit of such methods is the improvement in accessing in information using a language technology. The dissertation uses Wordnet’s thesaurus in order to attribute -in a more accurate way- the sense of a word taking under consideration the content in which this word appears in the text. The dissertation achieves a more effective access in information using the result of the segmentation of large texts into smaller segments each of which refers to a specific topic. Such an improved access is extremely useful while searching the Web. After an overview of the models and methods that have been proposed in the literature for the problem of finding the semantic structure of a text, we propose and implement three models. The first of those follows the Machine Learning approach and classifies texts using the appropriate sense of the words appearing in a text - taken from Wordnet’s thesaurus-, according to the content in which each word appears. This classification is compared to the one using the original words of the texts. The second model implements text segmentation using the outcome of classification. Finally, the third model suggests a method for segmenting large texts into smaller segments, each of which exhibiting strong cohesion and coherence in a topical level. The aforementioned segmentation is realized by the combination of a technique which calculates the similarity between parts of a text and a technique which automatically determines segment boundaries. The success of the aforementioned models was validated after their evaluation in an important number of datasets, the most important of which consists of greek texts. The importance of those models lies in the fact that they can play a key role in a wide area of language processing applications such as effective and accurate Web search, information retrieval, information extraction, summarization, thematic text classification etc., both to greek and english copora.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (7.43 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/15119
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/15119
ND	15119
Εναλλακτικός τίτλος	Classification and segimentation of texts using methods of computational linguistics
Συγγραφέας	Φράγκου, Παυλίνα (Πατρώνυμο: Α.)
Ημερομηνία	2004
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Πολυτεχνική. Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Εξεταστική επιτροπή	Πετρίδης Βασίλειος Στρίντζης Μιχάλης-Γεράσιμος Χασάπης Γεώργιος Πέτρου Λουκάς Θεοχάρης Ιωάννης Μήτκας Περικλής Κεχαγιάς Αθανάσιος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Τμηματοποίηση κειμένου; Κατηγοριοποίηση κειμένων; Επεξεργασία φυσικής γλώσσας
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	283 σ., εικ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Κατηγοριοποίηση κειμένων

Μέθοδοι μηχανικής μάθησης για αυτόματη ταξινόμηση κειμένων

Συστήματα διαχείρισης βιώσιμης ανάπτυξης

Μέθοδοι και τεχνικές ανακάλυψης γνώσης στο σημαντικό ιστό: παραγωγική απόκτηση γνώσης από οντολογικά έγγραφα και η τεχνική της σημασιακής προσαρμογής

Ενσωμάτωση της κειμενικής επεξεργασίας στην προοπτική διερεύνηση (Foresight)

Η θεωρία του χρόνου και της μνήμης από τον Αριστοτέλη στον Μπερξόν: διάλογος στη βάση της χρονικής συνέχειας

Κατανομές πιθανότητας στην ανάλυση επιβίωσης

Αυτόματη εξαγωγή λεξικής - σημασιολογικής γνώσης από ηλεκτρονικά σώματα κειμένων με χρήση ελαχίστων πόρων

Εξόρυξη πληροφορίας και ιατρικά συστήματα υποστήριξης απόφασης

ΕΠΕΞΕΡΓΑΣΙΑ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ

"Κατηγοριοποίηση και τμηματοποίηση κειμένων με χρήση μεθόδων υπολογιστικής νοημοσύνης"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .