Περίληψη
Η πρόοδος στην Πληροφορική του Πολιτισμού και του Τουρισμού έχει επηρεάσει σημαντικά τον τρόπο με τον οποίο οι άνθρωποι αντιλαμβάνονται, αναλύουν, επικοινωνούν και κατανοούν τα πολιτισμικά αντικείμενα. Οι αναδυόμενες πηγές δεδομένων, συμπεριλαμβανομένων των μέσων κοινωνικής δικτύωσης, του ψηφιοποιημένου πολιτιστικού υλικού και των συσκευών του Διαδικτύου των Πραγμάτων, έχουν επιτρέψει στην κοινωνία να βελτιώσει και να εξατομικεύσει την πολιτιστική εμπειρία. Ωστόσο, έχουν επίσης δημιουργήσει μια τεράστια ποσότητα νέου περιεχομένου, το οποίο πρέπει να αποθηκεύεται και να οργανώνεται αποτελεσματικά για να την παροχή πολύτιμων πτυχών πληροφορίας. Ενώ η διαχείριση δεδομένων είναι ζωτικής σημασίας για την πρόοδο τόσο των τομέων της Πολιτιστικής Κληρονομιάς όσο και του Πολιτιστικού Τουρισμού, οι τρέχουσες λύσεις είναι πολύ κατακερματισμένες, φυσικά διασκορπισμένες, απαιτούν εξειδικευμένη γνώση για την εφαρμογή τους, ενώ απαιτούν επιπλέον σημαντική εμπειρία στην πληροφορική για να λειτουργήσου ...
Η πρόοδος στην Πληροφορική του Πολιτισμού και του Τουρισμού έχει επηρεάσει σημαντικά τον τρόπο με τον οποίο οι άνθρωποι αντιλαμβάνονται, αναλύουν, επικοινωνούν και κατανοούν τα πολιτισμικά αντικείμενα. Οι αναδυόμενες πηγές δεδομένων, συμπεριλαμβανομένων των μέσων κοινωνικής δικτύωσης, του ψηφιοποιημένου πολιτιστικού υλικού και των συσκευών του Διαδικτύου των Πραγμάτων, έχουν επιτρέψει στην κοινωνία να βελτιώσει και να εξατομικεύσει την πολιτιστική εμπειρία. Ωστόσο, έχουν επίσης δημιουργήσει μια τεράστια ποσότητα νέου περιεχομένου, το οποίο πρέπει να αποθηκεύεται και να οργανώνεται αποτελεσματικά για να την παροχή πολύτιμων πτυχών πληροφορίας. Ενώ η διαχείριση δεδομένων είναι ζωτικής σημασίας για την πρόοδο τόσο των τομέων της Πολιτιστικής Κληρονομιάς όσο και του Πολιτιστικού Τουρισμού, οι τρέχουσες λύσεις είναι πολύ κατακερματισμένες, φυσικά διασκορπισμένες, απαιτούν εξειδικευμένη γνώση για την εφαρμογή τους, ενώ απαιτούν επιπλέον σημαντική εμπειρία στην πληροφορική για να λειτουργήσουν, ακόμη και για βασικές εργασίες. Ταυτόχρονα, καθώς οι πολιτιστικές και τουριστικές πληροφορίες γίνονται ολοένα και πιο προσβάσιμες μέσω μιας πληθώρας ετερογενών πηγών, όπως τα κοινωνικά δίκτυα, τα επίσημα αποθετήρια, οι κοινοτικές/εθνικές πλατφόρμες και οι πρωτοβουλίες ανοιχτών δεδομένων, η καταγραφή όλου του διαθέσιμου περιεχομένου μπορεί να οδηγήσει σε σύνολα δεδομένων με μεγάλο θόρυβο. Για παράδειγμα, παρόλο που τα ευρέως γνωστά αξιοθέατα συνήθως εμφανίζονται σε αυτές τις πηγές, καταγράφονται επίσης και δευτερογενή αξιοθέατα, αλλά με διαφορετικά επίπεδα λεπτομέρειας, οδηγώντας σε περιεχόμενο που μπορεί να είναι ελλιπές, επικαλυπτόμενο ή συμπληρωματικό. Για να διευκολυνθεί η ολοκληρωμένη πρόσβαση σε αυτές τις εκτενείς πληροφορίες, είναι απαραίτητο να εφαρμοστούν μεθοδολογίες συλλογής και ενσωμάτωσης που μπορούν να συγκεντρώσουν, να ομογενοποιήσουν και να ενοποιήσουν κατανεμημένο περιεχόμενο που σχετίζεται με τις ίδιες οντότητες. Σε αυτή τη διατριβή μελετάμε το πρόβλημα της χειροκίνητης και αυτοματοποιημένης συλλογής δεδομένων, μέσω ψηφιακών ερωτηματολογίων και διαδικασιών εξαγωγής δεδομένων ιστού αντίστοιχα, στους τομείς του πολιτιστικού τουρισμού και των μεταφορών, διερευνούμε διεξοδικά διάφορες αρχιτεκτονικές αποθήκευσης, διαχείρισης και ανάλυσης δεδομένων, εξετάζουμε διαφορετικά επίπεδα συνεργασίας των χρηστών για να αυξήσουμε τη συμμετοχή τους στην έρευνα πολιτιστικού τουρισμού, δίνοντας παράλληλα ιδιαίτερη προσοχή στον έλεγχο πρόσβασης των χρηστών για λόγους ασφάλειας περιεχομένου και σε εύχρηστες διεπαφές χρήστη για να στοχεύσουμε χρήστες με περιορισμένες ή καθόλου γνώσεις πληροφορικής. Εκτός από τα παραπάνω, εστιάζουμε σε προσεγγίσεις ανάλυσης δεδομένων για την εναρμόνιση διπλότυπων εγγραφών που αναφέρονται στην ίδια οντότητα και την ενσωμάτωση συμπληρωματικών, ενώ χρησιμοποιούμε μεθόδους και τεχνικές Μηχανικής Μάθησης με στόχο την εξαγωγή πληροφοριών υψηλής αξίας από το αποθηκευμένο περιεχόμενο. Αρχικά, παρουσιάζουμε την Hydria, μια διαδικτυακή λίμνη δεδομένων σχεδιασμένη για χρήστες που δεν έχουν γνώσεις πληροφορικής, επιτρέποντάς τους να συλλέγουν, να αποθηκεύουν, να οργανώνουν, να αναλύουν και να διανέμουν ετερογενή και σύνθετα δεδομένα Πολιτιστικής Κληρονομιάς και Τουρισμού. Η Hydria προσφέρει ένα ολοκληρωμένο πλαίσιο μηδενικής διαχείρισης και κόστους που επιτρέπει σε ερευνητές, επιμελητές μουσείων και άλλα ενδιαφερόμενα μέρη στον τομέα του πολιτιστικού τουρισμού να: (i) εφαρμόζουν υπηρεσίες συλλογής δεδομένων (όπως προγράμματα εξαγωγής δεδομένων κοινωνικής δικτύωσης, στοχευμένα προγράμματα ανίχνευσης ιστού, εισαγωγές συνόλων δεδομένων και φόρμες ερωτηματολογίων), (ii) δημιουργούν και διαχειρίζονται προσαρμόσιμα αποθετήρια δεδομένων, αξιοποιώντας σχεσιακές βάσεις δεδομένων, (iii) μοιράζονται ολόκληρα σύνολα δεδομένων ή συγκεκριμένα οριζόντια/κάθετα τμήματα δεδομένων με άλλα ενδιαφερόμενα μέρη μέσω κατάλληλων μηχανισμών δημοσίευσης/εγγραφής, (iv) αναζητούν, φιλτράρουν και αναλύουν το αποθηκευμένο περιεχόμενο, χρησιμοποιώντας μια διαισθητική αλλά ισχυρή γραφική μηχανή ερωτημάτων και εργαλεία οπτικοποίησης, και (v) εκτελούν εργασίες διαχείρισης χρηστών και ελέγχου πρόσβασης στα αποθηκευμένα δεδομένα. Στη συνέχεια, προτείνουμε το EnQuest, μια λίμνη δεδομένων που αποτελεί επέκταση της Hydria, εξοπλισμένη με NoSQL βάση δεδομένων χωρίς προκαθορισμένο σχήμα δεδομένων. Σε αυτόν τον αρχιτεκτονικό σχεδιασμό, τεράστια σύνολα δεδομένων μπορούν να αποθηκευτούν χωρίς να αλλάξει το σχήμα τους και να επηρεαστεί η απόδοση του συστήματος. Εκτός από τις δυνατότητες που παρέχει η Hydria, το EnQuest αναπτύχθηκε με τρόπο που επιτρέπει την πρόσβαση σε μη εξουσιοδοτημένους χρήστες (δηλαδή, σε εκείνους χωρίς διαπιστευτήρια της λίμνης δεδομένων) για εργασίες απόκτησης και ανάλυσης δεδομένων, ενώ η υπηρεσία οπτικοποίησης δεδομένων επεκτάθηκε περαιτέρω, για να επιτρέπει στους χρήστες να δημιουργούν πιο εξελιγμένα γραφήματα συνδυάζοντας ταυτόχρονα πολλά πεδία δεδομένων. Το προτεινόμενο σύστημα είναι εξ ολοκλήρου ανοιχτού κώδικα, σχεδιασμένο με εργαλεία και αρχές που βασίζονται στη διαχείριση μεγάλων συνόλων δεδομένων, για αποθήκευση δεδομένων, παραγωγή αναλυτικών στοιχείων και ανταλλαγή γνώσεων, στοχεύοντας τόσο στην απόδοση όσο και στην χρηστικότητα. Τα αποτελέσματα εκτεταμένων αξιολογήσεων απόδοσης σε σύγκριση με τον προκάτοχό του (δηλ., την Hydria) τόνισαν τη σταθερότητα του EnQuest και τη βελτίωση της απόδοσής του τουλάχιστον κατά μία τάξη μεγέθους σε όλες τις λειτουργίες, καθώς ο φόρτος εργασίας και στις δύο εναλλακτικές λύσεις λίμνης δεδομένων αυξανόταν συνεχώς. Τέλος, προτείναμε ένα πλαίσιο που βασίζεται στη Μηχανική Μάθηση για τη συλλογή, ομογενοποίηση και ενίσχυση πολιτιστικών και τουριστικών δεδομένων σε πολύγλωσσες, ποικίλες πηγές και το ενσωματώσαμε στις υλοποιημένες λίμνες δεδομένων. Η προσέγγισή μας αντιμετωπίζει τον εντοπισμό οντοτήτων, την ανίχνευση διπλότυπων και την εναρμόνιση συμπληρωματικού περιεχομένου, συνδυάζοντας τόσο προ-καταγεγραμμένες γεωγραφικές πληροφορίες όσο και διάφορες μετρήσεις ομοιότητας κειμένου τοπωνυμίων, δημιουργώντας μια βάση για μια εμπλουτισμένη και ενοποιημένη αναπαράσταση αξιοθέατων και σημείων ενδιαφέροντος. Επιπλέον, το αποθηκευμένο περιεχόμενο ενισχύεται αξιοποιώντας μεθόδους Επεξεργασίας Φυσικής Γλώσσας, συμπεριλαμβανομένων βιβλιοθηκών αυτοματοποιημένης μετάφρασης κειμένου, γλωσσικών μοντέλων αναγνώρισης οντοτήτων και τεχνικών ανάλυσης συναισθημάτων, για την παραγωγή αξιοποιήσιμων πληροφοριών, όπως τροχιές πολιτιστικού τουρισμού. Το πλαίσιο έχει σχεδιαστεί για να διευκολύνει την ανάπτυξη επεκτάσιμων αγωγών ολοκλήρωσης και είναι κατάλληλο για εφαρμογές που επικεντρώνονται στην προώθηση του τουρισμού, την ψηφιακή κληρονομιά, τις έξυπνες ταξιδιωτικές υπηρεσίες και τις μεταφορές. Αξίζει να σημειωθεί ότι όλα τα προαναφερθέντα συστήματα υλοποιήθηκαν, αναπτύχθηκαν και χρησιμοποιήθηκαν σε πραγματικά σενάρια, συμπεριλαμβανομένων ευρωπαϊκών και εθνικών ερευνητικών έργων, αποφέροντας σχόλια χρηστών και απτά αποτελέσματα.
περισσότερα
Περίληψη σε άλλη γλώσσα
The progress in Cultural and Tourism Informatics has substantially influenced the way people perceive, analyze, communicate and understand culture and cultural tourism. Emerging data sources, including social media, digitized cultural material, and Internet of Things devices, have enabled society to enhance and personalize the cultural experience. However, they have also generated a vast amount of new content, which must be stored and effectively managed to provide valuable assets. While data management is crucial for the advancement of both the Cultural Heritage and Cultural Tourism sectors, current solutions are fragmented, physically dispersed, requiring specialized IT expertise for their implementation, and considerable IT experience to operate, even for basic tasks. At the same time, as cultural and touristic information becomes increasingly accessible through a multitude of heterogeneous sources, such as social networks, official repositories, community platforms and open data in ...
The progress in Cultural and Tourism Informatics has substantially influenced the way people perceive, analyze, communicate and understand culture and cultural tourism. Emerging data sources, including social media, digitized cultural material, and Internet of Things devices, have enabled society to enhance and personalize the cultural experience. However, they have also generated a vast amount of new content, which must be stored and effectively managed to provide valuable assets. While data management is crucial for the advancement of both the Cultural Heritage and Cultural Tourism sectors, current solutions are fragmented, physically dispersed, requiring specialized IT expertise for their implementation, and considerable IT experience to operate, even for basic tasks. At the same time, as cultural and touristic information becomes increasingly accessible through a multitude of heterogeneous sources, such as social networks, official repositories, community platforms and open data initiatives, capturing all the available content can result in highly noisy datasets. For example, although well-known landmarks generally appear across these sources, lesser-known attractions are also recorded, yet with different levels of detail, leading to content that may be incomplete, overlapping, or complementary. To facilitate comprehensive access to this extensive information, it is essential to implant harvesting and consolidation methodologies that can gather, reconcile, and unify distributed content related to the same entities. In this thesis we study the problem of both human-assisted and automated data collection, through digital questionnaire-like and web scraping procedures respectively, in the fields of cultural tourism and transportation. We thoroughly explore various data storage, management and analysis architectures, we examine different levels of user collaboration to increase their engagement in cultural tourism research, while paying special attention to user access control for content security reasons and to user-friendly interfaces to target users with limited or no IT knowledge. In addition to the above, we focus on data resolution approaches to harmonize duplicate records referring to the same entity and consolidate complementary ones, while we utilize Machine Learning models to extract high-value insights from the captured content. Initially, we present Hydria, an online data lake designed for users who lack an IT background, enabling them to harvest, store, organize, analyze, and distribute heterogeneous and complex Cultural Heritage and Tourism data. Hydria offers a zero-administration, zero-cost, integrated framework that allows researchers, museum curators, and other stakeholders in the cultural tourism sector to effortlessly: (i) implement data acquisition services (such as social media scrapers, focused web crawlers, dataset imports, and questionnaire forms), (ii) create and manage adaptable customizable data repositories leveraging traditional databases, (iii) share entire datasets or specific horizontal/vertical data segments with other stakeholders via appropriate publish/subscribe mechanisms, (iv) search, filter, and analyze recorded content using an intuitive yet powerful graphical query engine and visualization tools, and (v) conduct user management and access control tasks on the stored data. Subsequently, we propose EnQuest, an expansion of Hydria equipped with a schema-less, document-oriented NoSQL database. In this architectural design, massive datasets can be ingested without affecting the operation of the data lake. In addition to the features provided by Hydria, EnQuest was developed in a way that allows access to unauthorized users (i.e., those without data lake credentials) for data acquisition and analysis tasks, while its data visualization service was further extended to enable its users to create more sophisticated visualizations by combining multiple data fields simultaneously. The proposed system is entirely open-source, designed upon big data tools and principles for data storage, analytics production, and knowledge sharing, targeting both performance and usability. The results of extensive performance evaluations compared to its predecessor (i.e., Hydria) highlighted EnQuest’s robustness and stability by at least an order of magnitude across all operations, as the workload on both data lake alternatives steadily increased. Finally, we put forward a machine learning-driven framework for harvesting, homogenizing, and augmenting cultural and tourism data across multilingual, diverse sources and apply it to both data lake approaches. Our approach addresses entity resolution, duplicate detection, and complementary content harmonization by combining both pre-recorded geographic information and various toponym string similarity metrics, establishing a basis for an enriched and unified representation of attractions and points of interest. Furthermore, the captured content is enhanced by leveraging Natural Language Processing methods, including automated text translation libraries, named entity recognition language models, and sentiment analysis pipelines, to yield actionable insights, such as cultural tourism trajectories. The framework is designed to facilitate scalable integration pipelines and is suitable for deployment in applications focused on tourism promotion, digital heritage, smart travel services, and transportation. It is worth noting that all aforementioned systems were implemented, deployed and used in real-life scenarios including European and national research projects bringing user feedback and tangible results.
περισσότερα