Περίληψη
Η παρούσα διατριβή εξετάζει την αυτόματη ανάλυση συναισθήματος σε πολυγλωσσικά κείμενα στο Twitter. Τα δεδομένα προέρχονται από τρεις γλώσσες (Ελληνικά, Αγγλικά, Ιταλικά), ενώ είναι επισημειωμένα και ως προς την κατηγορία δεδομένων, με χρήση διαφορετικών “θεμάτων” (“σχόλια γενικού περιεχομένου”, “πολιτική”, “τεχνολογία”, “μόδα”). Η αυτόματη ανάλυση συναισθήματος αναφέρεται σε τεχνικές της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing, NLP. Στο εξής: ΕΦΓ), της ανάλυσης κειμένου, της υπολογιστικής γλωσσολογίας, καθώς και παρεμφερών κλάδων, οι οποίες χρησιμοποιούνται για τον συστηματικό εντοπισμό, την εξαγωγή, την ποσοτικοποίηση και εν γένει τη μελέτη συναισθηματικών καταστάσεων και υποκειμενικών πληροφοριών (Liu, 2015, Cambria et al., 2017). Η ανάλυση συναισθήματος έχει ποικίλες εφαρμογές, από το μάρκετινγκ και την εξυπηρέτηση πελατών έως την κλινική ιατρική. Ο κλάδος της αυτόματης ανάλυσης συναισθήματος γνώρισε μεγάλη άνθηση τις τελευταίες δύο δεκαετίες, ενώ σήμερα θεωρείται ...
Η παρούσα διατριβή εξετάζει την αυτόματη ανάλυση συναισθήματος σε πολυγλωσσικά κείμενα στο Twitter. Τα δεδομένα προέρχονται από τρεις γλώσσες (Ελληνικά, Αγγλικά, Ιταλικά), ενώ είναι επισημειωμένα και ως προς την κατηγορία δεδομένων, με χρήση διαφορετικών “θεμάτων” (“σχόλια γενικού περιεχομένου”, “πολιτική”, “τεχνολογία”, “μόδα”). Η αυτόματη ανάλυση συναισθήματος αναφέρεται σε τεχνικές της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing, NLP. Στο εξής: ΕΦΓ), της ανάλυσης κειμένου, της υπολογιστικής γλωσσολογίας, καθώς και παρεμφερών κλάδων, οι οποίες χρησιμοποιούνται για τον συστηματικό εντοπισμό, την εξαγωγή, την ποσοτικοποίηση και εν γένει τη μελέτη συναισθηματικών καταστάσεων και υποκειμενικών πληροφοριών (Liu, 2015, Cambria et al., 2017). Η ανάλυση συναισθήματος έχει ποικίλες εφαρμογές, από το μάρκετινγκ και την εξυπηρέτηση πελατών έως την κλινική ιατρική. Ο κλάδος της αυτόματης ανάλυσης συναισθήματος γνώρισε μεγάλη άνθηση τις τελευταίες δύο δεκαετίες, ενώ σήμερα θεωρείται ένα από τα πιο δημοφιλή προβλήματα για τους ερευνητές της ΕΦΓ (Liu, 2015). Παρ’όλα αυτά, οι αρχικές έρευνες επικεντρώθηκαν σε κριτικές προϊόντων από ιστοσελίδες γραμμένες στα Αγγλικά (πρβλ. Pang et al. 2002). Τα τελευταία χρόνια, όμως, το ενδιαφέρον για τη χρήση των εφαρμογών της ανάλυσης συναισθήματος σε άλλες γλώσσες έχει αυξηθεί (Liu, 2015). Επίσης, τα τελευταία χρόνια φαίνεται να υπάρχει μια μετατόπιση του ενδιαφέροντος από τις κριτικές προϊόντων και υπηρεσιών στα μέσα κοινωνικής δικτύωσης, εξαιτίας της ολοένα και αυξανόμενης δημοφιλίας τους, σε μια εποχή που από ερευνητές του χώρου αναφέρεται ως “η εποχή των μέσων κοινωνικής δικτύωσης” (Pozzi et al., 2017). Στην παρούσα διατριβή εξετάζονται και συγκρίνονται ως προς την απόδοσή τους διαφορετικές μέθοδοι που έχουν αναπτυχθεί τα τελευταία χρόνια για την αυτόματη ανάλυση συναισθήματος σε πολυγλωσσικά κείμενα στο Twitter. Συγκεκριμένα, συγκρίνεται η απόδοση: (α) διαφορετικών μεθόδων σε διαφορετικά σώματα δεδομένων και (β) της ίδιας μεθόδου σε διαφορετικά σώματα δεδομένων, δηλαδή σε δεδομένα επισημειωμένα ως προς τη γλώσσα και την κατηγορία δεδομένων. Οι μέθοδοι που συγκρίνονται είναι οι εξής: (α) Αλγόριθμος Naive Bayes (NB) σε συνδυασμό με ν-γράμματα (μονογράμματα, διγράμματα), (β) Αλγόριθμος Support Vector Machines (SVM) σε συνδυασμό με ν-γράμματα και το σχήμα στάθμισης tf-idf, (γ) Νευρωνικά δίκτυα (CNN, LSTM) σε συνδυασμό με λεξικές ενθέσεις (Glove, fastText), (δ) Το γλωσσικό μοντέλο BERT.Σύμφωνα με τα αποτελέσματα, το γλωσσικό μοντέλο BERT έχει σε όλα τα πειράματα πλην ενός και σε όλες τις γλώσσες συνολικά την καλύτερη απόδοση συγκριτικά με τις υπόλοιπες μεθόδους, επιβεβαιώνοντας προηγούμενες έρευνες (Devlin et al., 2019) που υποδεικνύουν την πολύ υψηλή αποτελεσματικότητα του μοντέλου. Παράλληλα, τα αποτελέσματα δείχνουν ότι δεν υπάρχουν σημαντικές διαφορές στην απόδοση μεταξύ των αλγορίθμων SVM και NB, αν και παλαιότερες έρευνες είχαν δείξει μια ελαφρά υπεροχή είτε του πρώτου (Pang et al., 2002), είτε του δεύτερου αλγορίθμου (Wang & Manning, 2012). Aντίστοιχα, στη χρήση διγραμμάτων ή μονογραμμάτων (λέξεων) δεν υπήρξαν σημαντικές διαφορές στην απόδοση στην παρούσα μελέτη. Τέλος, τα αποτελέσματα έδειξαν ότι η χρήση του σχήματος στάθμισης tf-idf είναι πολύ αποτελεσματική για τη βελτίωση της απόδοσης, επιβεβαιώνοντας προηγούμενες μελέτες (Markopoulos et al., 2015), ενώ τα μοντέλα λεξικών ενθέσεων σε συνδυασμό με νευρωνικά δίκτυα παρουσίασαν συστηματικά καλύτερη απόδοση από τα απλά ν-γράμματα, ειδικά στην περίπτωση της χρήσης νευρωνικών δικτύων LSTM.
περισσότερα
Περίληψη σε άλλη γλώσσα
This study examines multilingual sentiment analysis in social media. Sentiment analysis refers to techniques in Natural Language Processing (NLP) used to study the emotional states and subjective information (Liu, 2015, Cambria et al., 2017). In its simplest form, sentiment analysis deals with the polarity of a given text, i.e., whether the opinion expressed in it is positive or negative. While sentiment analysis research initially focused on product reviews written in English, recently, there is a lot of interest in sentiment analysis applications in social media (Pozzi et al., 2017) and multilingual texts (Liu, 2015).In this study, different sentiment analysis methods are compared in terms of their performance on datasets consisting of Greek, English, and Italian comments on Twitter, further tagged for topic ("general comments", "politics", "technology", “fashion”). The performance of different methods on different datasets is thus compared, as well as the same exactly method on diff ...
This study examines multilingual sentiment analysis in social media. Sentiment analysis refers to techniques in Natural Language Processing (NLP) used to study the emotional states and subjective information (Liu, 2015, Cambria et al., 2017). In its simplest form, sentiment analysis deals with the polarity of a given text, i.e., whether the opinion expressed in it is positive or negative. While sentiment analysis research initially focused on product reviews written in English, recently, there is a lot of interest in sentiment analysis applications in social media (Pozzi et al., 2017) and multilingual texts (Liu, 2015).In this study, different sentiment analysis methods are compared in terms of their performance on datasets consisting of Greek, English, and Italian comments on Twitter, further tagged for topic ("general comments", "politics", "technology", “fashion”). The performance of different methods on different datasets is thus compared, as well as the same exactly method on different datasets. The methods examined are the following: (a) a Naive Bayes (NB) algorithm combined with n-grams, (b) Support Vector Machines (SVM) algorithm combined with n-grams and the tf-idf weighting scheme, (c) Neural networks (CNN, LSTM) with Glove and fastText word embeddings and (d), the BERT language model. The results show that BERT has achieved the best performance in all experiments except one and in all languages overall compared to the rest of the methods, confirming thus the results in Devlin et al. (2019) that show the model to be highly efficient. The results also show no significant difference between the SVM and NB-based algorithms in performance, although previous research has shown conflicting results (Pang et al., 2002; cf. Wang & Manning, 2012). Similarly, the use of either bigrams or unigrams (words) was shown to achieve similar performance in this study. The results show that the use of the tf-idf weighting scheme is very effective in improving performance, confirming previous studies regarding the efficiency of the scheme (Markopoulos et al., 2015). Finally, word embeddings outperformed simple n-gram models, while LSTM-based models performed better than CNN-based models.
περισσότερα