Περίληψη
Η επίδραση της ψηφιακής τεχνολογίας στην καθημερινή μας ζωή κατά τις τελευταίες δεκαετίες είναι ραγδαία. Από την εισαγωγή των προσωπικών υπολογιστών στη δεκαετία του ́80, την εμφάνιση του World Wide Web στη δεκαετία του ́90 και τη διάδοση της χρήσης των κοινωνικών ιστοσελίδων και τεχνολογιών 2.0 αυτή τη δεκαετία, οι ζωές μας έχουν γίνει έντονα συνυφασμένες με την αξιοποίηση, την παραγωγή και τη δημοσίευση ψηφιακών δεδομένων. Εκατομμύρια χρήστες σε όλο τον κόσμο κάθε μέρα απασχολούνται σε διαδικτυακούς τόπους κοινωνικής δικτύωσης και εναποθέτουν σε αυτούς ψηφιακό περιεχομένο μαζί με μεταδεδομένα που το περιγράφουν, μια πρακτική γνωστή ως επισημείωση (tagging). Αυτός ο τεράστιος πλούτος δεδομένων που σχετίζεται άμεσα με τους χρήστες που το παράγουν, καθώς και το χρόνο και και το χώρο που αυτά λαμβάνουν χώρα, θα μπορούσε δυνητικά να γίνει μία εξαιρετικά πολύτιμη πηγή εξαγωγής μοτίβων και μετατροπής τους σε γ ...
Η επίδραση της ψηφιακής τεχνολογίας στην καθημερινή μας ζωή κατά τις τελευταίες δεκαετίες είναι ραγδαία. Από την εισαγωγή των προσωπικών υπολογιστών στη δεκαετία του ́80, την εμφάνιση του World Wide Web στη δεκαετία του ́90 και τη διάδοση της χρήσης των κοινωνικών ιστοσελίδων και τεχνολογιών 2.0 αυτή τη δεκαετία, οι ζωές μας έχουν γίνει έντονα συνυφασμένες με την αξιοποίηση, την παραγωγή και τη δημοσίευση ψηφιακών δεδομένων. Εκατομμύρια χρήστες σε όλο τον κόσμο κάθε μέρα απασχολούνται σε διαδικτυακούς τόπους κοινωνικής δικτύωσης και εναποθέτουν σε αυτούς ψηφιακό περιεχομένο μαζί με μεταδεδομένα που το περιγράφουν, μια πρακτική γνωστή ως επισημείωση (tagging). Αυτός ο τεράστιος πλούτος δεδομένων που σχετίζεται άμεσα με τους χρήστες που το παράγουν, καθώς και το χρόνο και και το χώρο που αυτά λαμβάνουν χώρα, θα μπορούσε δυνητικά να γίνει μία εξαιρετικά πολύτιμη πηγή εξαγωγής μοτίβων και μετατροπής τους σε γνώσεις για την αντιμετώπιση και την επίλυση μιας ευρείας ποικιλίας προβλημάτων της σύγχρονης εποχής. Ωστόσο, για να γίνουν αυτά τα δεδομένα χρήσιμα, δεν αρκεί κάποιος να εφαρμόσει άμεσα τις υπάρχουσες τεχνικές εξόρυξης δεδομένων, χωρίς ειδική εξέταση και μεταχείριση των ιδιαιτεροτήτων των συνεχώς εξελισσόμενων συνόλων δεδομένων των διαδικτυακών τόπων κοινωνικής δι- κτύωσης, καθώς και του είδους της γνώσης που θα ήταν χρήσιμο να εξέλθει από τέτοια δεδομένα.Με βάση τα παραπάνω σε αυτή τη διατριβή, παρουσιάζουμε μια σειρά από τεχνικές εξόρυξης που αντιμετωπίζουν ακριβώς αυτή την ανάγκη. Αυτές οι τεχνικές αφορούν στην άντληση γνώσης και πληροφορίας από κοινωνικές ιστοσελίδες σχετικά με: i) ανίχνευση κοινοτήτων, ii) χρονική ανάλυση, iii) αξιοποίηση πληροφοριών πλαισίου (context), και iv) σύνδεση με σημασιολογία. Πιο αναλυτικά, στην πρώτη περίπτωση, προτείνονται αλγόριθμοι για ομαδοποίηση στο χώρο των ετικετών, στους χώρους περιεχομένου και ετικετών, και, τέλος, σε έναν συνδυασμό από πολλούς χώρους χαρακτηριστικών ταυτόχρονα. Οι προτεινόμενοι μέθοδοι οδηγούν στην ανίχνευση κοινοτήτων σε διαφορετικούς χώρους χαρακτηριστικών. ∆εύτερον, προτείνονται τεχνικές για χρονική ανάλυση, οι οποίες επιτρέπουν διερεύνηση τάσεων και ανίχνευση σημαντικών γεγονότων. Τρίτον, παρουσιάζονται τεχνικές για τη διερεύνηση πλαισίου (context) στο φυσικό κόσμο. Συγκεκριμένα μελετάται η επάρκεια μεγέθους του δείγματος κοινωνικών δεδομένων για την κατασκευή ενός μοντέλου αναγνώρισης αντικειμένων. Το προτεινόμενο μοντέλο χρησιμοποιεί πλη- ροφορίες πλαισίου με βάση κατανομές συνεμφάνισης ετικετών στα κοινωνικά μέσα. Και τέταρτον, προτείνονται τεχνικές σύνδεσης μεταξύ του Κοινωνικού και του Σημασιολογικού Ιστού. ́Ολα τα παραπάνω εισάγονται σαν προβλήματα, αναλύονται και το σημαντικότερο εφαρμόζονται σε πραγματικά στοιχεία,που αποδεικνύουν την αποτελεσματικότητά τους. Το σύνολο εργαλείων και αλγορίθμων που παρέχεται με τις παραπάνω τεχνικές, βοηθά στη γεφύρωση του χάσματος μεταξύ των τεράστιων σε όγκο, ακατέργαστων, πρωτογενών δεδομένων των κοινωνικών δικτύων και των γενικών τεχνικών εξόρυξης δεδομένων, αφενός, και των εύκολων στη χρήση, κατανοητών και χρήσιμων δομών πληροφορίας υψηλού επιπέδου, από την άλλη. Επιπλέον, πολλαπλές κατευθύνσεις για μελλοντική έρευνα παρουσιάζονται και διερευνώνται.
περισσότερα
Περίληψη σε άλλη γλώσσα
The effect of digital technology in our everyday lives in the last decades has been profound. From the introduction of personal computers in the 80’s, to the emergence of the world wide web in the 90’s, to the widespread usage of the social web and web 2.0 technologies this decade, our lives have become strongly intertwined with the utilization as well as the production of shared data. Millions of users worldwide are posting every day to social networking sites, and are also tagging and annotating digital content. This huge amount of rich data which is strongly related to users, time, and space, could potentially become a highly invaluable source for extracting patterns and transforming them into knowledge towards responding to and solving a wide variety of modern-day problems. However, for such data to become useful, one cannot directly apply existing data mining techniques without special consideration of the peculiarities of the continuously evolving human-generated data sets of soc ...
The effect of digital technology in our everyday lives in the last decades has been profound. From the introduction of personal computers in the 80’s, to the emergence of the world wide web in the 90’s, to the widespread usage of the social web and web 2.0 technologies this decade, our lives have become strongly intertwined with the utilization as well as the production of shared data. Millions of users worldwide are posting every day to social networking sites, and are also tagging and annotating digital content. This huge amount of rich data which is strongly related to users, time, and space, could potentially become a highly invaluable source for extracting patterns and transforming them into knowledge towards responding to and solving a wide variety of modern-day problems. However, for such data to become useful, one cannot directly apply existing data mining techniques without special consideration of the peculiarities of the continuously evolving human-generated data sets of social networking sites, as well as of the target knowledge that would be useful to be derived from such data. Thus, in this thesis, we are presenting a number of techniques addressing exactly this need. These are comprised of four categories addressing communities, time, context and semantics. In more detail, first, algorithms are presented for clustering across the tag space, across combinations of tag and visual space, and across multiple social media-derived feature spaces, enabling community detection. Second, techniques for temporal analysis, which enable trend & event detection. Third, techniques for studying the sample size adequacy towards context extraction based on co-occurrence in social media, which can be used for enhancing real-world recognition problems. And fourth, techniques for synergism between the social and semantic web. All the above are introduced, discussed, and most importantly applied to real-world data, demonstrating their effectiveness. The toolchest provided by the above techniques, helps bridge the gap between massive raw social-network data and generic data mining techniques, on the one hand, and highly usable and useful high-level patterns and knowledge, on the other. Furthermore, multiple avenues for future research are presented and explored.
περισσότερα