Περίληψη
Στην παρούσα διατριβή παρουσιάζονται τα τελικά αποτελέσματα της 10ετούς έρευνάς μας στο ρηματικό σύνολο της Νέας Ελληνικής γλώσσας, στόχος της οποίας ήταν η δημιουργία αφενός μιας στατιστικής βάσης δεδομένων καταληκτικών γραφηματικών συνδυασμών, η οποία, με βάση το αντίστροφο μοντέλο MOSAIC της Koktova (1985), επιτρέπει την αυτόματη μορφοσυντακτική αναγνώριση όλων των μονολεκτικών ρηματικών τύπων της γλώσσας χωρίς την ενδιάμεση κλασσική μεσολάβηση ηλεκτρονικού λεξικού και αφετέρου ενός συστήματος μορφοφωνολογικών κανόνων λημματοποίησης των ρηματικών τύπων, με ποικίλες εφαρμογές στους τομείς της Αυτόματης Επεξεργασίας Κειμένων και Διδασκαλίας της Ελληνικής Γλώσσας. Στο πλαίσιο αυτό συνελέγησαν, παρήχθησαν και ταξινομήθηκαν αυτομάτως, ελέγχθηκαν και εμπλουτίσθηκαν 24 ΜΒ γλωσσικών δεδομένων (τα οποία έχουν κατατεθεί υπό μορφή παραρτήματος), δείγματα των οποίων περιέχονται στη διατριβή. Πιο συγκεκριμένα πρόκειται για: α) αρχείο 8.485 ρηματικών λημμάτων της Νέας Ελληνικής, σύμφωνο προς τα σ ...
Στην παρούσα διατριβή παρουσιάζονται τα τελικά αποτελέσματα της 10ετούς έρευνάς μας στο ρηματικό σύνολο της Νέας Ελληνικής γλώσσας, στόχος της οποίας ήταν η δημιουργία αφενός μιας στατιστικής βάσης δεδομένων καταληκτικών γραφηματικών συνδυασμών, η οποία, με βάση το αντίστροφο μοντέλο MOSAIC της Koktova (1985), επιτρέπει την αυτόματη μορφοσυντακτική αναγνώριση όλων των μονολεκτικών ρηματικών τύπων της γλώσσας χωρίς την ενδιάμεση κλασσική μεσολάβηση ηλεκτρονικού λεξικού και αφετέρου ενός συστήματος μορφοφωνολογικών κανόνων λημματοποίησης των ρηματικών τύπων, με ποικίλες εφαρμογές στους τομείς της Αυτόματης Επεξεργασίας Κειμένων και Διδασκαλίας της Ελληνικής Γλώσσας. Στο πλαίσιο αυτό συνελέγησαν, παρήχθησαν και ταξινομήθηκαν αυτομάτως, ελέγχθηκαν και εμπλουτίσθηκαν 24 ΜΒ γλωσσικών δεδομένων (τα οποία έχουν κατατεθεί υπό μορφή παραρτήματος), δείγματα των οποίων περιέχονται στη διατριβή. Πιο συγκεκριμένα πρόκειται για: α) αρχείο 8.485 ρηματικών λημμάτων της Νέας Ελληνικής, σύμφωνο προς τα στοιχεία που παρέχουν τα πλέον πρόσφατα λεξικά της γλώσσας (Κουρμούλης 1967, Παγουλάτος 1991, Τεγόπουλος-Φυτράκης 1993, Κριαράς 1995, Μπαμπινιώτης 1998, Ινστιτούτο Νεοελληνικών Σπουδών 1998) β) νέο σύστημα κατηγοριοποίησης 385 κλιτικών υποδειγμάτων, το οποίο επέτρεψε την αυτόματη παραγωγή όλων των ρηματικών θεμάτων και μονολεκτικών κλιτών τύπων γ) αρχείο καταληκτικών γραφηματικών συνδυασμών 1ου ενικού προσώπου, η οποία επιτρέπει την αυτόματη απόδοση κωδικού κλιτικού υποδείγματος σε οποιοδήποτε ρηματικό λήμμα της γλώσσας δ) αρχείο 27.383 ρηματικών θεμάτων χαρακτηρισμένων ως προς το κλιτικό τους υπόδειγμα και το σύνολο των επιτρεπόμενων καταλήξεών τους ε) 103 αρχεία 519.694 αυτομάτως παραχθέντων και ταξινομημένων κλιτών τύπων στ) 10 αρχεία 151.527 καταληκτικών γραφηματικών συνδυασμών που δηλώνουν μονοσήμαντα κλιτικό υπόδειγμα, μορφοσυντακτικό περιεχόμενο, απόλυτη συχνότητα και κωδικό λημματοποίησης ζ) σύστημα κανόνων λημματοποίησης το οποίο λειτουργεί βάσει του νέου κλιτικού συστήματος 385 κλιτικών υποδειγμάτων. Αναλυτικότερα στο 1ο κεφάλαιο συζητούνται ο ρόλος που παίζουν τα μορφολογικά λεξικά και οι στατιστικές προσεγγίσεις στην αυτόματη μορφοσυντακτική αναγνώριση των λέξεων ενός κειμένου. Στο 2ο κεφάλαιο παρουσιάζεται το ρηματικό σύστημα της Νέας Ελληνικής, με σύντομη αναφορά στο λεξιλόγιο της γλώσσας (Καθαρεύουσα-Δημοτική), οι μορφοσυντακτικές κατηγορίες που δηλώνονται, το κλιτικό σύστημα όπως αυτό παρουσιάζεται στις γραμματικές περιγραφές των τελευταίων 40 ετών, τα ρηματικά θέματα και κλιτικά επιθήματα, το τονικό σύστημα, η εξωτερική/εσωτερική αύξηση και ο αναδιπλασιασμός, καθώς και τα 2 πλέον πρόσφατα κλιτικά συστήματα των Κυριακοπούλου (1990) και Ιορδανίδου (1992) όπου και εξηγείται η ανάγκη δημιουργίας ενός νέου κλιτικού συστήματος. Στο 3ο κεφάλαιο περιγράφεται η μεθοδολογία συλλογής και επεξεργασίας των δεδομένων, ενώ στο 4ο και τελευταίο κεφάλαιο παρουσιάζονται αποσπάσματα από τις 10 βάσεις δεδομένων που έχουν δημιουργηθεί. Πιλοτική εφαρμογή του προτεινόμενου γλωσσικού εργαλείου διατίθεται στο διαδίκτυο και ειδικότερα στην ιστοσελίδα http://hermis.di.uoa.gr:8080/verbtaggr του Εργαστηρίου Γλωσσικής και Εκπαιδευτικής Τεχνολογίας του Τμήματος Πληροφορικής του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών.
περισσότερα
Περίληψη σε άλλη γλώσσα
In this dissertation we present the final results of our 10-year research on the Modern Greek verbal system. The objective of the research has been twofold: i) the development of a statistical database containing word-final grapheme sequences, which, on the basis of Koktova's (1985) retrograde analysis model MOSAIC, allow for the automatic morphosyntactic recognition (tagging) of all monolexical verbal forms of the language without any access to relevant electronic lexicons and ii) the development of a verb lemmatization morphophonological rule system, both providing various applications in all major areas of Text Processing as well as Teaching of Modern Greek Standard. Within this framework, 24Mb of verbal linguistic data have been collected, generated and classified automatically, and manually checked and enriched. These have been submitted to the University in the form of an appendix. Only representative extracts appear in the dissertation. More specifically, they consist of: a) a f ...
In this dissertation we present the final results of our 10-year research on the Modern Greek verbal system. The objective of the research has been twofold: i) the development of a statistical database containing word-final grapheme sequences, which, on the basis of Koktova's (1985) retrograde analysis model MOSAIC, allow for the automatic morphosyntactic recognition (tagging) of all monolexical verbal forms of the language without any access to relevant electronic lexicons and ii) the development of a verb lemmatization morphophonological rule system, both providing various applications in all major areas of Text Processing as well as Teaching of Modern Greek Standard. Within this framework, 24Mb of verbal linguistic data have been collected, generated and classified automatically, and manually checked and enriched. These have been submitted to the University in the form of an appendix. Only representative extracts appear in the dissertation. More specifically, they consist of: a) a file of 8,485 Modern Greek verbal lemmas, developed in accordance with the evidence provided by the most recent dictionaries of the language (Dictionary of the Modern Greek Dhemotiki, Kriaras 1995, Greek Dictionary,Tegopoulos-Fytrakis 1993, Abridged Dictionary of Modern Greek, Pagoulatou Publ. 1991, Dictionary of Modern Greek, Babiniotis 1998 and Dictionary of Modern Greek Koine, Triantafyllidis Inst., Aristotle University of Thessaloniki 1998) b) a new conjugation system of 385 paradigmatic models, which allows for the automatic generation of all verbal stems and monolexical forms c) a file of 1st person singular word-final grapheme sequences, which allows for the automatic attribution of paradigmatic model codes to any verbal lemmas of the language d) a file of 27,383 verbal stems characterized solely on the basis of their conjugation model and their permissible suffix set e) 103 files of 519,694 automatically generated and classified verbal forms f) 10 files of 151,527 word-final grapheme sequences, which declare the conjugation model, morphosyntactic content, absolute frequency and lemmatization code of verbal forms g) a linear lemmatization morphophonological rule system, which functions on the basis of the newly developed 385 conjugation model system. More analytically, in the 1st chapter we discuss the role which morphological lexicons and statistical approaches play in the automatic morphosyntactic recognition of word tokens (tagging). In the 2nd chapter we discuss the Modern Greek verb system, including a brief description of the vocabulary of the language (Katharevousa-Dhemotiki): the morphosyntactic categories marked, the conjugation system as presented in various grammatical descriptions over the last 40 years, the verbal stems and inflectional affixes involved, the stress pattern, the external/internal augment and reduplication occurrences, as well as the 2 most recently developed conjugation systems (Kyriacopoulou 1990 and Iordanidou 1992), in an effort to account for the need of developing a new conjugation system. In the 3rd chapter we describe the methodology employed for the collection and processing of data, whereas in the 4th chapter we present extensive extracts from the 10 databases developed all together. A pilot application of the proposed language tool is available on the Internet and can be found on the site of the Language and Education Technology Laboratory of the University of Athens Informatics/Telecommunications Departmenthttp://hermis.di.uoa.gr:8080/verbtaggr.
περισσότερα