Περίληψη
Αντικείμενο της παρούσας έρευνας ήταν η κατασκευή ενός μορφολογικού ηλεκτρονικού λεξικού των κυρίων ονομάτων προσώπων της Νέας Ελληνικής και η μορφολογική περιγραφή τους με απώτερο στόχο την αυτόματη αναγνώρισή τους και ενσωμάτωσή τους σε συστήματα αυτόματης ανάλυσης κειμένων. Τα κύρια ονόματα απαντούν με μεγάλη συχνότητα στα κείμενα, και εάν δεν εμφανίζονται σε μία βάση δεδομένων, όπως είναι το ηλεκτρονικό λεξικό που δημιουργήσαμε, τότε τα συστήματα αυτόματης ανάλυσης τα αντιμετωπίζουν ως άγνωστες λέξεις. Αφετηρία και έναυσμα της εργασίας μας αποτέλεσε το μορφολογικό ηλεκτρονικό λεξικό των απλών ρημάτων της Νέας Ελληνικής (DelasGR) που αναπτύχθηκε από την Kyriacopoulou T. (1990). Για την μορφολογική περιγραφή των κυρίων ονομάτων προσώπων επιλέξαμε ως θεωρητικό υπόβαθρο της έρευνας τη μετασχηματιστική γραμματική του Z. S. Harris, ενώ ως μεθοδολογικό πλαίσιο ακολουθήσαμε το μοντέλο των αυτομάτων πεπερασμένων καταστάσεων, τα οποία αποτυπώνουν τα γλωσσικά δεδομένα με οικονομικό και πιστό ...
Αντικείμενο της παρούσας έρευνας ήταν η κατασκευή ενός μορφολογικού ηλεκτρονικού λεξικού των κυρίων ονομάτων προσώπων της Νέας Ελληνικής και η μορφολογική περιγραφή τους με απώτερο στόχο την αυτόματη αναγνώρισή τους και ενσωμάτωσή τους σε συστήματα αυτόματης ανάλυσης κειμένων. Τα κύρια ονόματα απαντούν με μεγάλη συχνότητα στα κείμενα, και εάν δεν εμφανίζονται σε μία βάση δεδομένων, όπως είναι το ηλεκτρονικό λεξικό που δημιουργήσαμε, τότε τα συστήματα αυτόματης ανάλυσης τα αντιμετωπίζουν ως άγνωστες λέξεις. Αφετηρία και έναυσμα της εργασίας μας αποτέλεσε το μορφολογικό ηλεκτρονικό λεξικό των απλών ρημάτων της Νέας Ελληνικής (DelasGR) που αναπτύχθηκε από την Kyriacopoulou T. (1990). Για την μορφολογική περιγραφή των κυρίων ονομάτων προσώπων επιλέξαμε ως θεωρητικό υπόβαθρο της έρευνας τη μετασχηματιστική γραμματική του Z. S. Harris, ενώ ως μεθοδολογικό πλαίσιο ακολουθήσαμε το μοντέλο των αυτομάτων πεπερασμένων καταστάσεων, τα οποία αποτυπώνουν τα γλωσσικά δεδομένα με οικονομικό και πιστό τρόπο τόσο για τον υπολογιστή όσο και για τον γλωσσολόγο. Αναζητήθηκε ένας ικανοποιητικός ορισμός του όρου «κύριο όνομα» και συζητήθηκαν διάφορες θεωρίες γλωσσικής κατηγοριοποίησής του, με αποτέλεσμα να διακριθεί από το σύνολο των ονοματικών οντοτήτων. Περιγράψαμε και αναλύσαμε την παρουσία των κυρίων ονομάτων στη Νέα Ελληνική με βάση τα μορφολογικά, συντακτικά και σημασιολογικά χαρακτηριστικά που διέπουν την ιδιαίτερη αυτή κατηγορία ουσιαστικών. Αφού ορίστηκαν με σαφήνεια και συστηματικό τρόπο οι λεξιλογικές και μορφο-συντακτικές ιδιότητες των κυρίων ονομάτων προσώπων της Νέας Ελληνικής, εξετάσαμε τα μορφολογικά προβλήματα και τα προβλήματα αμφισημιών των ονομάτων, καθώς και τις δυσκολίες που εμφανίστηκαν στην προσπάθεια κωδικοποίησής τους, ώστε να είναι δυνατή η χρήση τους από ηλεκτρονικό υπολογιστή. Έτσι, κατασκευάσαμε ένα λεξικό ανθρωπωνυμίων, ενώ στη συνέχεια, συγκεντρώθηκαν αυτόματα όλοι οι κλιτοί τους τύποι και μετατράπηκαν σε ηλεκτρονικά λεξικά συμπιεσμένα, με τρόπο κατάλληλο να επιτρέπει την αξιοποίησή τους από ένα περιβάλλον αυτόματης επεξεργασίας. Το μορφολογικό αυτό λεξικό χρησιμοποιήθηκε για την αναγνώριση λεξικών μονάδων που εμφανίζονται σε κείμενα που συλλέχθηκαν από το διαδίκτυο και παρουσιάστηκαν τα πρώτα αποτελέσματα της αυτόματης επεξεργασίας και αναγνώρισης, οποία ήταν ιδιαίτερα ενθαρρυντικά. Έπειτα, καταφύγαμε στο συγκείμενο των κυρίων ονομάτων για να επιτύχουμε την αυτόματη αναγνώριση και κατηγοριοποίηση εκείνων των ανθρωπωνυμίων που εμφανίζονται στα υπό μελέτη κείμενα, αλλά που δεν περιέχονται στα προκατασκευασμένα λεξικά. Περιγράψαμε τα μεθοδολογικά βήματα που ακολουθήσαμε, όπως και τα κριτήρια αναγνώρισης των υπό μελέτη δομών, βάσει των οποίων καταρτίζονται τα αντίστοιχα αυτόματα πεπερασμένων καταστάσεων. Για να επιτευχθεί η αυτόματη αναγνώριση χρησιμοποιήσαμε τη μέθοδο των λογικών εκφράσεων και ταυτόχρονα έγινε αξιοποίηση των σημασιολογικών χαρακτηριστικών που υπάρχουν ήδη ενσωματωμένα στα λεξικά. Εφαρμόζοντας αυτές τις μεθόδους αυτόματης αναγνώρισης παρατηρούμε μια σημαντική βελτίωση στα αποτελέσματα του συστήματός μας, αφού οι λεξικές μονάδες που ανακτήθηκαν ήταν πολλαπλάσιες σε σχέση με αυτές που ανακτούνται μόνο με την εφαρμογή των ηλεκτρονικών λεξικών. Ακόμη, βελτίωση παρατηρήσαμε και στην κατηγοριοποίηση των λεξικών μονάδων που εξήχθησαν, η οποία ήταν περισσότερο ακριβής χάρη στην αξιοποίηση των στοιχείων του συγκειμένου των λημμάτων. Η συνδυαστική μέθοδος που προτείνουμε, μέσω της χρήσης του λεξικού και της αυτόματης αναπαράστασης των ελληνικών βαπτιστικών και επωνύμων, παρουσιάζει αξιόλογα ποσοστά ποιοτικής ανάκτησης, ενώ τα ενθαρρυντικά αποτελέσματα της μεθόδου μπορούν να συντελέσουν στην απαρχή της αυτόματης ανάλυσης του συνόλου των ονοματικών οντοτήτων.
περισσότερα
Περίληψη σε άλλη γλώσσα
The purpose of this study had been twofold. Firstly, we wanted to construct a morphological electronic dictionary of persons’ proper names in Modern Greek; secondly, we wanted to provide a morphological description of them in order to achieve their automatic recognition and integration in automatic text analysis. Proper names are encountered with great frequency in texts and unless they are part of a database, such as the electronic dictionary that we have created, then the automatic analysis systems treats (faces) them as unknown words. The starting point and inspirational basis of our work has been the morphological electronic dictionary of simple verbs in Modern Greek (DelasGR) developed by Kyriacopoulou T. (1990). The theoretical background of our research specifically concerning the morphological description of proper names of persons was based on the transformational grammar by Z. S. Harris, and our methodological framework was defined by the model of finite state automata, which ...
The purpose of this study had been twofold. Firstly, we wanted to construct a morphological electronic dictionary of persons’ proper names in Modern Greek; secondly, we wanted to provide a morphological description of them in order to achieve their automatic recognition and integration in automatic text analysis. Proper names are encountered with great frequency in texts and unless they are part of a database, such as the electronic dictionary that we have created, then the automatic analysis systems treats (faces) them as unknown words. The starting point and inspirational basis of our work has been the morphological electronic dictionary of simple verbs in Modern Greek (DelasGR) developed by Kyriacopoulou T. (1990). The theoretical background of our research specifically concerning the morphological description of proper names of persons was based on the transformational grammar by Z. S. Harris, and our methodological framework was defined by the model of finite state automata, which record the linguistic data in an economic and structured way both for the computer and the linguist. We searched for an adequate definition of the term ‘proper name’ and discussed various theories of linguistic categorization, thus distinguishing it from the entirety of named entities. Furthermore, we analyzed the presence of proper names in Modern Greek according to the morphological, syntactic and semantic features that govern this specific category of nouns. After having clearly and systematically defined the lexical and morpho-syntactic properties of persons’ proper names in Modern Greek, we examined the morphological problems and other problems concerning the ambiguities of names; finally we tackled the difficulties that arose when we tried to encode the names, so as they can be used by a computer. Thus, we created a dictionary of anthroponyms, and then all inflectional types (inflected forms) were automatically compiled and converted into electronic dictionaries compressed in an appropriate way to allow their use by a Natural Language Processing system. The morphological dictionary was used to identify lexical units that occur in texts collected from the internet. Later, we presented the first results of the automatic processing and recognition, which were very encouraging. Then, we turned to the context of proper names, in order to achieve automatic recognition and classification of those anthroponyms that appear in texts under study, but are not contained in prefabricated dictionaries. We described the methodological steps followed and the criteria for the recognition of the studied structures, which are the basis for the compilation of according finite state automata. To achieve automatic recognition we used the method of regular expressions and at the same time we used the semantic features that are already integrated in dictionaries. Having applied these methods of automatic recognition, we observed a significant improvement in the results drawn from our system, since the words that were recovered were multiple in relation to those recovered by the mere application of electronic dictionaries. Furthermore, we observed improvement in the classification of words exported, which became more accurate thanks to the use of attributes that belong to the context of the entries. The combined method we propose, through the use both of our dictionary and the automatic representation of Greek surnames and first names, presents remarkably high rates of retrieving results with quality and validity. Finally, and most importantly, the encouraging results prompting from this specific method can contribute to the onset of automatic analysis of all named entities.
περισσότερα