Τεχνικές εξόρυξης γνώσης από δεδομένα κοινωνικού ιστού

Η επίδραση της ψηφιακής τεχνολογίας στην καθημερινή μας ζωή κατά τις τελευταίες δεκαετίες είναι ραγδαία. Από την εισαγωγή των προσωπικών υπολογιστών στη δεκαετία του ́80, την εμφάνιση του World Wide Web στη δεκαετία του ́90 και τη διάδοση της χρήσης των κοινωνικών ιστοσελίδων και τεχνολογιών 2.0 αυτή τη δεκαετία, οι ζωές μας έχουν γίνει έντονα συνυφασμένες με την αξιοποίηση, την παραγωγή και τη δημοσίευση ψηφιακών δεδομένων. Εκατομμύρια χρήστες σε όλο τον κόσμο κάθε μέρα απασχολούνται σε διαδικτυακούς τόπους κοινωνικής δικτύωσης και εναποθέτουν σε αυτούς ψηφιακό περιεχομένο μαζί με μεταδεδομένα που το περιγράφουν, μια πρακτική γνωστή ως επισημείωση (tagging). Αυτός ο τεράστιος πλούτος δεδομένων που σχετίζεται άμεσα με τους χρήστες που το παράγουν, καθώς και το χρόνο και και το χώρο που αυτά λαμβάνουν χώρα, θα μπορούσε δυνητικά να γίνει μία εξαιρετικά πολύτιμη πηγή εξαγωγής μοτίβων και μετατροπής τους σε γνώσεις για την αντιμετώπιση και την επίλυση μιας ευρείας ποικιλίας προβλημάτων της σύγχρονης εποχής. Ωστόσο, για να γίνουν αυτά τα δεδομένα χρήσιμα, δεν αρκεί κάποιος να εφαρμόσει άμεσα τις υπάρχουσες τεχνικές εξόρυξης δεδομένων, χωρίς ειδική εξέταση και μεταχείριση των ιδιαιτεροτήτων των συνεχώς εξελισσόμενων συνόλων δεδομένων των διαδικτυακών τόπων κοινωνικής δι- κτύωσης, καθώς και του είδους της γνώσης που θα ήταν χρήσιμο να εξέλθει από τέτοια δεδομένα.Με βάση τα παραπάνω σε αυτή τη διατριβή, παρουσιάζουμε μια σειρά από τεχνικές εξόρυξης που αντιμετωπίζουν ακριβώς αυτή την ανάγκη. Αυτές οι τεχνικές αφορούν στην άντληση γνώσης και πληροφορίας από κοινωνικές ιστοσελίδες σχετικά με: i) ανίχνευση κοινοτήτων, ii) χρονική ανάλυση, iii) αξιοποίηση πληροφοριών πλαισίου (context), και iv) σύνδεση με σημασιολογία. Πιο αναλυτικά, στην πρώτη περίπτωση, προτείνονται αλγόριθμοι για ομαδοποίηση στο χώρο των ετικετών, στους χώρους περιεχομένου και ετικετών, και, τέλος, σε έναν συνδυασμό από πολλούς χώρους χαρακτηριστικών ταυτόχρονα. Οι προτεινόμενοι μέθοδοι οδηγούν στην ανίχνευση κοινοτήτων σε διαφορετικούς χώρους χαρακτηριστικών. ∆εύτερον, προτείνονται τεχνικές για χρονική ανάλυση, οι οποίες επιτρέπουν διερεύνηση τάσεων και ανίχνευση σημαντικών γεγονότων. Τρίτον, παρουσιάζονται τεχνικές για τη διερεύνηση πλαισίου (context) στο φυσικό κόσμο. Συγκεκριμένα μελετάται η επάρκεια μεγέθους του δείγματος κοινωνικών δεδομένων για την κατασκευή ενός μοντέλου αναγνώρισης αντικειμένων. Το προτεινόμενο μοντέλο χρησιμοποιεί πλη- ροφορίες πλαισίου με βάση κατανομές συνεμφάνισης ετικετών στα κοινωνικά μέσα. Και τέταρτον, προτείνονται τεχνικές σύνδεσης μεταξύ του Κοινωνικού και του Σημασιολογικού Ιστού. ́Ολα τα παραπάνω εισάγονται σαν προβλήματα, αναλύονται και το σημαντικότερο εφαρμόζονται σε πραγματικά στοιχεία,που αποδεικνύουν την αποτελεσματικότητά τους. Το σύνολο εργαλείων και αλγορίθμων που παρέχεται με τις παραπάνω τεχνικές, βοηθά στη γεφύρωση του χάσματος μεταξύ των τεράστιων σε όγκο, ακατέργαστων, πρωτογενών δεδομένων των κοινωνικών δικτύων και των γενικών τεχνικών εξόρυξης δεδομένων, αφενός, και των εύκολων στη χρήση, κατανοητών και χρήσιμων δομών πληροφορίας υψηλού επιπέδου, από την άλλη. Επιπλέον, πολλαπλές κατευθύνσεις για μελλοντική έρευνα παρουσιάζονται και διερευνώνται.

περισσότερα

Περίληψη σε άλλη γλώσσα

The effect of digital technology in our everyday lives in the last decades has been profound. From the introduction of personal computers in the 80’s, to the emergence of the world wide web in the 90’s, to the widespread usage of the social web and web 2.0 technologies this decade, our lives have become strongly intertwined with the utilization as well as the production of shared data. Millions of users worldwide are posting every day to social networking sites, and are also tagging and annotating digital content. This huge amount of rich data which is strongly related to users, time, and space, could potentially become a highly invaluable source for extracting patterns and transforming them into knowledge towards responding to and solving a wide variety of modern-day problems. However, for such data to become useful, one cannot directly apply existing data mining techniques without special consideration of the peculiarities of the continuously evolving human-generated data sets of social networking sites, as well as of the target knowledge that would be useful to be derived from such data. Thus, in this thesis, we are presenting a number of techniques addressing exactly this need. These are comprised of four categories addressing communities, time, context and semantics. In more detail, first, algorithms are presented for clustering across the tag space, across combinations of tag and visual space, and across multiple social media-derived feature spaces, enabling community detection. Second, techniques for temporal analysis, which enable trend & event detection. Third, techniques for studying the sample size adequacy towards context extraction based on co-occurrence in social media, which can be used for enhancing real-world recognition problems. And fourth, techniques for synergism between the social and semantic web. All the above are introduced, discussed, and most importantly applied to real-world data, demonstrating their effectiveness. The toolchest provided by the above techniques, helps bridge the gap between massive raw social-network data and generic data mining techniques, on the one hand, and highly usable and useful high-level patterns and knowledge, on the other. Furthermore, multiple avenues for future research are presented and explored.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (9.47 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/38637
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/38637
ND	38637
Εναλλακτικός τίτλος	Data mining techniques on social web data
Συγγραφέας	Γιαννακίδου, Ειρήνη (Πατρώνυμο: Ιωάννης)
Ημερομηνία	2013
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής. Eργαστήριο Γλωσσών Προγραμματισμού και Τεχνολογίας Λογισμικού
Εξεταστική επιτροπή	Βακάλη Αθηνά Μανωλόπουλος Ιωάννης Κομπατσιάρης Ιωάννης Βασιλειάδης Νικόλαος Τσουμάκας Γρηγόριος Μαυρίδης Νικόλαος Ευαγγελίδης Γεώργιος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Κοινωνικός ιστός; Εξόρυξη δεδομένων; Ομαδοποίηση; Ανοιχτά δεδομένα
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	253 σ., εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Πολυδιάστατη στατιστική ανάλυση και διοίκηση ποιότητας: η αποτύπωση της διοίκησης ποιότητας σε ελληνικές επιχειρήσεις με μεθόδους της ανάλυσης δεδομένων

Χρήση τεχνικών εξόρυξης γνώσης στον σχεδιασμό παιχνιδοποιημένων εφαρμογών

Μηχανική μάθηση για την ανάλυση μεγάλων βιολογικών δεδομένων

Εφαρμογή και αξιολόγηση συστημάτων διαχείρισης ασφάλειας τροφίμων και διαχείρισης ολικής ποιότητας σε μονάδες υγείας

Γεωχημική μελέτη περιβαλλοντικών επιπτώσεων σε εδάφη, ύδατα και φυτά στο δυτικό τμήμα της λεκάνης της Δράμας, από την παρουσία και εκμετάλλευση κοιτασμάτων μαγγανίου στην ευρύτερη περιοχή: πειραματική αποκατάσταση ρυπασμένων εδαφών

A big data analytics framework to support adaptive and personalized learning environments

Ανάπτυξη τεχνικών εξόρυξης γνώσης από δεδομένα για προσαρμοστικά συστήματα διαχείρισης της μάθησης

Keyphrase extraction techniques

Η ηλεκτρονική διακυβέρνηση και η συνεισφορά της στην εξάλειψη της διαφθοράς και την βελτίωση των υπηρεσιών στη δημόσια διοίκηση

Εφαρμογές γλωσσικής τεχνολογίας στα ελληνικά για την αναγνώριση προτύπων μάθησης και συμπεριφοράς στις δυνητικές κοινότητες μάθησης: σχολικός εκφοβισμός και αυτοκτονικός ιδεασμός

"Τεχνικές εξόρυξης γνώσης από δεδομένα κοινωνικού ιστού"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .