Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.
Η παρούσα διδακτορική διατριβή πραγματεύεται την ανάπτυξη υπολογιστικών μεθόδων για την εμβάθυνση στο περιεχόμενο των κειμένων και την ανάδειξη του τρόπου δόμησής τους (με την εύρεση των υποθεμάτων από τα οποία αποτελούνται) άρα και κατ’ επέκταση τη βελτίωση πρόσβασης σε πληροφορία με τη βοήθεια γλωσσικής τεχνολογίας. Η εν λόγω διατριβή αφορά την χρήση του θησαυρού όρων Wordnet για την ακριβέστερη απόδοση της έννοιας των λέξεων μέσα στο περιεχόμενο στο οποίο απαντώνται, αλλά και την αποτελεσματικότερη πρόσβαση στην πληροφορία με την τμηματοποίηση μεγάλης έκτασης κειμένων σε μικρότερα τμήματα καθένα από τα οποία αναφέρεται σε ένα συγκεκριμένο θέμα. Μια τέτοιου είδους βελτιωμένη πρόσβαση είναι χρήσιμη στην ολοένα αυξανόμενη πληροφορία που απαντάται στις μέρες μας κυρίως στο Διαδίκτυο. Μετά από επισκόπηση των μοντέλων και μεθόδων για την εύρεση της εννοιολογικής δομής των κειμένων και τη βελτίωση πρόσβασης σε πληροφορία προτείνονται τρία μοντέλα. Το πρώτο από αυτά ακολουθεί την προσέγγιση της Mηχανικής Mάθησης και πραγματοποιεί κατηγοριοποίηση κειμένων με την βοήθεια της έννοιας της κάθε λέξης -όπως αυτή προσδιορίζεται από το περιεχόμενο μέσα στο οποίο αυτή απαντάται και όπως αυτή δίνεται από τον θησαυρού όρων Wordnet - και όχι των αυτούσιων λέξεων του κειμένου. Το δεύτερο μοντέλο πραγματεύεται την τμηματοποίηση κειμένων με την βοήθεια τεχνικών κατηγοριοποίησης κειμένων. Τέλος, το τελευταίο προτεινόμενο μοντέλο προτείνει και υλοποιεί ένα μοντέλο τμηματοποίησης κειμένων μεγάλης έκτασης σε μικρότερα τμήματα καθένα από τα οποία παρουσιάζει ισχυρή συνάφεια και συνοχή σε τοπικό επίπεδο. Η εν λόγω τμηματοποίηση πραγματοποιείται ως συνδυασμός τεχνικών εύρεσης της ομοιότητας μεταξύ των διαφόρων μερών του κειμένου και αυτόματου καθορισμού των ορίων μεταξύ των τμημάτων. Η επιτυχία και των τριών μοντέλων επιβεβαιώνεται από την εφαρμογή τους σε αντίστοιχα σώματα κειμένων με πιο σημαντικό το σώμα κειμένων το οποίο απαρτίζεται από ελληνικά κείμενα. Η σπουδαιότητα των εν λόγω μοντέλων έγκειται στο γεγονός ότι αποτελούν ισχυρά βοηθήματα σε ένα ευρύ πεδίο εφαρμογών όπως η ακριβέστερη ανάκτηση και εξόρυξη πληροφορίας, η εξαγωγή περιλήψεων, η θεματική κατηγοριοποίηση κειμένων κλπ, τόσο σε αγγλικά όσο και σε ελληνικά κείμενα.
περισσότερα
Περίληψη σε άλλη γλώσσα
This dissertation deals with the development of computational methods which penetrate into the content of texts and reveal their structure, as the result of finding their topics and subtopics. The benefit of such methods is the improvement in accessing in information using a language technology. The dissertation uses Wordnet’s thesaurus in order to attribute -in a more accurate way- the sense of a word taking under consideration the content in which this word appears in the text. The dissertation achieves a more effective access in information using the result of the segmentation of large texts into smaller segments each of which refers to a specific topic. Such an improved access is extremely useful while searching the Web. After an overview of the models and methods that have been proposed in the literature for the problem of finding the semantic structure of a text, we propose and implement three models. The first of those follows the Machine Learning approach and classifies texts ...
This dissertation deals with the development of computational methods which penetrate into the content of texts and reveal their structure, as the result of finding their topics and subtopics. The benefit of such methods is the improvement in accessing in information using a language technology. The dissertation uses Wordnet’s thesaurus in order to attribute -in a more accurate way- the sense of a word taking under consideration the content in which this word appears in the text. The dissertation achieves a more effective access in information using the result of the segmentation of large texts into smaller segments each of which refers to a specific topic. Such an improved access is extremely useful while searching the Web. After an overview of the models and methods that have been proposed in the literature for the problem of finding the semantic structure of a text, we propose and implement three models. The first of those follows the Machine Learning approach and classifies texts using the appropriate sense of the words appearing in a text - taken from Wordnet’s thesaurus-, according to the content in which each word appears. This classification is compared to the one using the original words of the texts. The second model implements text segmentation using the outcome of classification. Finally, the third model suggests a method for segmenting large texts into smaller segments, each of which exhibiting strong cohesion and coherence in a topical level. The aforementioned segmentation is realized by the combination of a technique which calculates the similarity between parts of a text and a technique which automatically determines segment boundaries. The success of the aforementioned models was validated after their evaluation in an important number of datasets, the most important of which consists of greek texts. The importance of those models lies in the fact that they can play a key role in a wide area of language processing applications such as effective and accurate Web search, information retrieval, information extraction, summarization, thematic text classification etc., both to greek and english copora.
περισσότερα