Ανάλυση ελληνικών σωμάτων κειμένων με τη χρήση τεχνικών μηχανικής μάθησης: υπολογιστική αναπαράσταση της ιδιολέκτου

Περίληψη

Η ιδιόλεκτος, στο πλαίσιο της γλωσσολογίας, αναφέρεται στη μοναδική και ιδιαίτερη χρήση της γλώσσας ενός ατόμου και αποτελεί το αντίστοιχο της κοινωνιολέκτου με σημείο αναφοράς το άτομο. Η έρευνα για την έννοια της ιδιολέκτου στη γλωσσολογία είναι μάλλον περιορισμένη, ειδικά σε ό,τι αφορά την επικύρωσή της με εμπειρικούς τρόπους. Η σχετική έρευνα στη γλωσσολογία σωμάτων κειμένων και στην υφομετρία έχει επίσης περιορισμούς που αφορούν είτε τον αριθμό των υπό εξέταση συγγραφέων (μικρότερος των 10) είτε τον αριθμό των όρων του λεξιλογίου που χρησιμοποιούνται στην εξέταση της ιδιολεκτικής ομοιότητας (περί των 310 λειτουργικών λέξεων). Η παρούσα διατριβή χρησιμοποιεί κατανεμημένες αναπαραστάσεις (λεξικές ενθέσεις) για την ανάλυση κειμένων χρηστών κοινωνικών δικτύων, τα οποία θεωρείται ότι αντανακλούν το ιδιαίτερο προσωπικό ύφος κάθε συγγραφέα. Τα δεδομένα στα οποία βασίζεται η διατριβή αποτελούνται από ένα σώμα κειμένων του Twitter στα ελληνικά, που προέρχεται από 4.949 χρήστες από το 2009 ...
περισσότερα

Περίληψη σε άλλη γλώσσα

Idiolect, as a term in linguistics, refers to the unique and distinctive use of language by an individual and is the individual counterpart of sociolect. Research on idiolect has so far been rather neglected in sociolinguistics, especially as concerns its validation by empirical means. Research on idiolect in corpus linguistics and stylometry has also been limited in terms of either the number of authors examined (typically less that 10 authors) or the number of vocabulary items used in the examination of idiolectal similarity (up to ~310 functional words). This thesis employs learning distributed representations or lexical embeddings to analyse texts by social media users that are considered to reflect their writing style. Data include a Twitter corpus of Greek texts, posted by 4.494 users from 2009 to 2016 (325 million words approx.) and the Blog Authorship Corpus, used for comparison. Based on Zellig Harris’ Distributional Hypothesis, according to which semantically similar words te ...
περισσότερα
Η διατριβή είναι δεσμευμένη από τον συγγραφέα  (μέχρι και: 3/2022)
Το πλήρες κείμενο της διατριβής είναι διαθέσιμο σε έντυπη μορφή από τη Βιβλιοθήκη Επιστήμης και Τεχνολογίας του ΕΚΤ
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/45377
ND
45377
Εναλλακτικός τίτλος
Greek corpora analysis using Machine Learning techniques: computational representation of idiolect
Συγγραφέας
Περήφανος, Κωνσταντίνος Αναστάσιος
Ημερομηνία
2019
Ίδρυμα
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (ΕΚΠΑ). Σχολή Φιλοσοφική. Τμήμα Φιλολογίας. Τομέας Γλωσσολογίας
Εξεταστική επιτροπή
Γούτσος Διονύσιος
Μικρός Γεώργιος
Μαρκόπουλος Γεώργιος
Μπέλλα Σπυριδούλα
Κουτσουλέλου Σταματία
Παναγιωτόπουλος Θ
Πικράκης Α
Επιστημονικό πεδίο
Φυσικές Επιστήμες
Επιστήμες Ηλεκτρονικών Υπολογιστών & Πληροφορικής
Λέξεις-κλειδιά
Ιδιόλεκτος; Μηχανική μάθηση; Νευρωνικά δίκτυα; Σώματα κειμένων; Αναπαράσταση με μηχανική μάθηση
Χώρα
Ελλάδα
Γλώσσα
Ελληνικά
Άλλα στοιχεία
216 σ., πιν., σχημ., γραφ.
Ειδικοί όροι χρήσης/διάθεσης
Το έργο παρέχεται υπό τους όρους της δημόσιας άδειας του νομικού προσώπου Creative Commons Corporation:Creative Commons Αναφορά Δημιουργού Μη εμπορική Χρήση Όχι Παράγωγα Έργα 3.0 Ελλάδα