Ανάλυση ελληνικών σωμάτων κειμένων με τη χρήση τεχνικών μηχανικής μάθησης: υπολογιστική αναπαράσταση της ιδιολέκτου

Η ιδιόλεκτος, στο πλαίσιο της γλωσσολογίας, αναφέρεται στη μοναδική και ιδιαίτερη χρήση της γλώσσας ενός ατόμου και αποτελεί το αντίστοιχο της κοινωνιολέκτου με σημείο αναφοράς το άτομο. Η έρευνα για την έννοια της ιδιολέκτου στη γλωσσολογία είναι μάλλον περιορισμένη, ειδικά σε ό,τι αφορά την επικύρωσή της με εμπειρικούς τρόπους. Η σχετική έρευνα στη γλωσσολογία σωμάτων κειμένων και στην υφομετρία έχει επίσης περιορισμούς που αφορούν είτε τον αριθμό των υπό εξέταση συγγραφέων (μικρότερος των 10) είτε τον αριθμό των όρων του λεξιλογίου που χρησιμοποιούνται στην εξέταση της ιδιολεκτικής ομοιότητας (περί των 310 λειτουργικών λέξεων). Η παρούσα διατριβή χρησιμοποιεί κατανεμημένες αναπαραστάσεις (λεξικές ενθέσεις) για την ανάλυση κειμένων χρηστών κοινωνικών δικτύων, τα οποία θεωρείται ότι αντανακλούν το ιδιαίτερο προσωπικό ύφος κάθε συγγραφέα. Τα δεδομένα στα οποία βασίζεται η διατριβή αποτελούνται από ένα σώμα κειμένων του Twitter στα ελληνικά, που προέρχεται από 4.949 χρήστες από το 2009 έως το 2016 (περίπου 325 εκ. λέξεις), και το σώμα κειμένων Blog Authorship Corpus για σύγκριση και επαλήθευση. Με αφετηρία την Κατανεμητική Υπόθεση του Zellig Harris, σύμφωνα με την οποία σημασιολογικά παρόμοιες λέξεις τείνουν να εμφανίζονται σε παρόμοια περικείμενα, η έννοια της λεξικής ένθεσης αποτελεί τη βάση σύνθεσης υφολογικών ενθέσεων, παρέχοντας έτσι τη δυνατότητα να απαντηθεί το ερώτημα της ύπαρξης ιδιολέκτου και παρέχοντας έτσι ένα υφολογικό αποτύπωμα των υπό εξέταση συγγραφέων. Στη διατριβή εξετάζεται και συγκρίνεται η απόδοση διαφόρων μοντέλων κατασκευής κατανεμητικών αναπαραστάσεων. Πιο συγκεκριμένα, χρησιμοποιούνται λεξικές ενθέσεις που παράγονται από Νευρωνικά Γλωσσικά Μοντέλα (word2vec, doc2vec, fastText), καθώς και μοντέλα που προκύπτουν από παραγοντοποίηση πινάκων συνεμφάνισης όρων (GloVe). Τα επιλεγμένα μοντέλα εφαρμόζονται σε όλο το λεξιλόγιο των υπό εξέταση κειμένων και συνεπώς δεν περιορίζονται σε περιορισμένο λεξιλόγιο και ταυτόχρονα είναι εύκολα επεκτάσιμα σε σώματα κειμένων δεκάδων χιλιάδων συγγραφέων. Στην παρούσα διατριβή βρέθηκε ότι οι λεξικές ενθέσεις α) μπορούν να χρησιμοποιηθούν ως δομικό συστατικό αναπαράστασης του ατομικού κειμενικού ύφους και β) οι ιδιολεκτικές ενθέσεις παρέχουν τη δυνατότητα συσταδοποίησης ιδιολεκτικής ομοιότητας, δημιουργώντας έτσι ομάδες παρόμοιου ύφους, καθώς επίσης και μέτρα αποτίμησης της σταθερότητας του κειμενικού ύφους στο πέρασμα του χρόνου. Τα ευρήματα αυτά έχουν σημαντικές εφαρμογές σε πεδία όπως η αναγνώριση συγγραφέα, η ανίχνευση λογοκλοπής, η ανίχνευση διαδικτυακής παρενόχλησης και κακοποίησης. Επιπλέον, η παρούσα διατριβή είναι η πρώτη εκτεταμένη μελέτη της ιδιολέκτου στην ελληνική γλώσσα με τη χρήση τεχνικών μηχανικής μάθησης, γεγονός που υποδηλώνει ότι οι λεξικές ενθέσεις μπορούν να εφαρμοστούν με επιτυχία σε ευρύ φάσμα ερευνητικών περιοχών που αφορούν την ελληνική γλώσσα.

περισσότερα

Περίληψη σε άλλη γλώσσα

Idiolect, as a term in linguistics, refers to the unique and distinctive use of language by an individual and is the individual counterpart of sociolect. Research on idiolect has so far been rather neglected in sociolinguistics, especially as concerns its validation by empirical means. Research on idiolect in corpus linguistics and stylometry has also been limited in terms of either the number of authors examined (typically less that 10 authors) or the number of vocabulary items used in the examination of idiolectal similarity (up to ~310 functional words). This thesis employs learning distributed representations or lexical embeddings to analyse texts by social media users that are considered to reflect their writing style. Data include a Twitter corpus of Greek texts, posted by 4.494 users from 2009 to 2016 (325 million words approx.) and the Blog Authorship Corpus, used for comparison. Based on Zellig Harris’ Distributional Hypothesis, according to which semantically similar words tend to appear in the same contexts, the notion of lexical (or word) embeddings can be used to answer the question of idiolect, providing thus a stylistic fingerprint for the authors involved. The performance of various models of distributed representation are explored and compared; in particular, these involve lexical embeddings produced by Neural Probabilistic Language models (namely, word2vec, fastText and doc2vec) and matrix factorization (namely, GloVe). The selected models are applied to the entire vocabulary of the texts concerned and thus are not limited by corpus vocabulary size and are scalable to thousands of authors.It is found that idiolect embeddings a) can be used to represent the style of individual authors and b) can provide the means of clustering users in terms of their idiolectal similarity, revealing clusters of the same style, as well as the means of quantifying idiolect stability over time. The findings have considerable applications in areas such as authorship attribution, plagiarism detection, online harassment and abuse. Furthermore, this is the first extended study of idiolect in Greek texts, using machine learning methods, something which suggests that lexical embeddings can be fruitfully employed in further areas of research in this language.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (4.15 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/45377
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/45377
ND	45377
Εναλλακτικός τίτλος	Greek corpora analysis using Machine Learning techniques: computational representation of idiolect
Συγγραφέας	Περήφανος, Κωνσταντίνος (Πατρώνυμο: Αναστάσιος)
Ημερομηνία	2019
Ίδρυμα	Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (ΕΚΠΑ). Σχολή Φιλοσοφική. Τμήμα Φιλολογίας. Τομέας Γλωσσολογίας
Εξεταστική επιτροπή	Γούτσος Διονύσιος Μικρός Γεώργιος Μαρκόπουλος Γεώργιος Μπέλλα Σπυριδούλα Κουτσουλέλου Σταματία Παναγιωτόπουλος Θ Πικράκης Α
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά	Ιδιόλεκτος; Μηχανική μάθηση; Νευρωνικά δίκτυα; Σώματα κειμένων; Αναπαράσταση με μηχανική μάθηση
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	216 σ., πιν., σχημ., γραφ.
Ειδικοί όροι χρήσης/διάθεσης	Το έργο παρέχεται υπό τους όρους της δημόσιας άδειας του νομικού προσώπου Creative Commons Corporation: Αναφορά Δημιουργού - Μη Εμπορική Χρήση - Όχι Παράγωγα Έργα 3.0 (CC-BY-NC-ND)

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Σώματα κειμένων και γλωσσική εκπαίδευση: δυνατότητες αξιοποίησης στη διδασκαλία της ελληνικής και συγκρότηση παιδαγωγικά κατάλληλων σωμάτων κειμένων

Ο αξιολογικός ρόλος του επιθέτου και η χρήση του ως δείκτη ιδεολογίας: μελέτη βασισμένη σε σώματα κειμένων δημοσιογραφικού λόγου

Η χρήση των ηλεκτρονικών σωμάτων κειμένων στη διδακτική της ειδικής μετάφρασης: μία θεωρητική και πρακτική προσέγγιση

Ο προκατασκευασμένος λόγος στα Ελληνικά και Αγγλικά: μια μελέτη βασισμένη σε σώματα κειμένων με προεκτάσεις στη διδασκαλία της γλώσσας

Εφηβική κουλτούρα, ηλεκτρονικά παιχνίδια και κοινωνικο-πολιτική εκπαίδευση

Αυτόματη ταξινόμηση κειμένων με χρήση αυτο-οργανούμενων χαρτών και μεθόδων μηχανικής μάθησης

Ποιήματα των Ελλήνων ποιητών για ('Ελληνες) ποιητές κατά την περίοδο 1850-1980

Πολυπαραγοντική ανάλυση της ελληνικής και ρωσικής πρότασης

Κατηγοριοποίηση κειμένων

Μια λεξικολογική προσέγγιση στο περιθωριακό λεξιλόγιο της Νέας Ελληνικής

"Ανάλυση ελληνικών σωμάτων κειμένων με τη χρήση τεχνικών μηχανικής μάθησης: υπολογιστική αναπαράσταση της ιδιολέκτου"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της . Έλαβα γνώση οτι το έργο παρέχεται υπό τους όρους της δημόσιας άδειαςCreative Commons Αναφορά Δημιουργού Μη εμπορική Χρήση Όχι Παράγωγα Έργα 3.0 Ελλάδα