Ανάκτηση, ανάλυση και αρχειοθέτηση του παγκόσμιου ιστού

Περίληψη

Αρχειοθέτηση του παγκόσμιου ιστού ονομάζεται η διαδικασία συλλογής και αποθήκευσης ιστοσελίδων με σκοπό τη διαφύλαξή τους σε ένα ψηφιακό αρχείο, προσβάσιμο για τοκοινό και τους ερευνητές. Η αρχειοθέτηση του παγκόσμιου ιστού είναι ένα ζήτημα ύψιστης προτεραιότητας, καθώς αφενός αποτελεί κύριο μέσο της σύγχρονης επικοινωνίαςκαι αφετέρου η μέση διάρκεια ζωής των ιστοσελίδων είναι λιγότερη από 100 ημέρες.Έτσι, καθημερινά εξαφανίζονται από τον παγκόσμιο ιστό εκατομμύρια ιστοσελίδες πουπαύουν να λειτουργούν για διάφορους λόγους, με αποτέλεσμα να χάνονται πολύτιμεςπληροφορίες. Το πρόβλημα της αρχειοθέτησης του παγκόσμιου ιστού συνίσταται απόδιάφορες επιμέρους διαδικασίες όπως η αυτόματη πλοήγηση στον παγκόσμιο ιστό, ηεξαγωγή περιεχομένου, η ανάλυση και η αποθήκευσή του σε κατάλληλη μορφή ώστε ναείναι δυνατή η ανάκτηση και η επαναχρησιμοποίησή του για οποιουσδήποτε σκοπούς. Τοπρόβλημα της αυτοματοποιημένης πλοήγηση στον παγκόσμιο ιστό με σκοπό την ανάκτησηκαι την επεξεργασία πληροφορίας αποτελ ...
περισσότερα

Περίληψη σε άλλη γλώσσα

The Web is increasingly important for all aspects of our society, culture and economy. Webarchiving is the process of gathering digital materials from the Web, ingesting it, ensuringthat these materials are preserved in an archive, and making the collected materials availablefor future use and research. Web archiving is a difficult problem due to organizational andtechnical reasons. We focus on the technical aspects of Web archiving.In this dissertation, we focus on improving the data acquisition aspect of the Web archiving process. We establish the notion of Website Archivability (WA) and we introduce theCredible Live Evaluation of Archive Readiness Plus (CLEAR+) method to measure WA forany website. We propose new algorithms to optimise Web crawling using near-duplicatedetection and webgraph cycle detection, resolving also the problem of web spider traps.Following, we suggest that different types of websites demand different Web archiving approaches. We focus on social media and more ...
περισσότερα
Πρέπει να είστε εγγεγραμένος χρήστης για έχετε πρόσβαση σε όλες τις υπηρεσίες του ΕΑΔΔ  Είσοδος /Εγγραφή

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/36536
Εναλλακτικός τίτλος
Web crawling, analysis and archiving
Συγγραφέας
Μπάνος, Ευάγγελος Κωνσταντίνος
Ημερομηνία
2015
Ίδρυμα
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής. Εργαστήριο Τεχνολογίας και Επεξεργασίας Δεδομένων
Εξεταστική επιτροπή
Μανωλόπουλος Ιωάννης
Κατσαρός Δημήτριος
Παπαδόπουλος Απόστολος
Βακάλη Αθηνά
Γούναρης Αναστάσιος
Ευαγγελίδης Γεώργιος
Καπιδάκης Σαράντος
Επιστημονικό πεδίο
Φυσικές Επιστήμες
Επιστήμες Ηλεκτρονικών Υπολογιστών & Πληροφορικής
Λέξεις-κλειδιά
αρχειοθέτηση του παγκόσμιου ιστού; Ψηφιακές βιβλιοθήκες; αυτόματη πλοήγηση στον παγκόσμιο ιστό
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Άλλα στοιχεία
xxii, 164 σ., πιν., σχημ., γραφ., ευρ.
Ειδικοί όροι χρήσης/διάθεσης
Το έργο παρέχεται υπό τους όρους της δημόσιας άδειας του νομικού προσώπου Creative Commons Corporation:Creative Commons Αναφορά Δημιουργού 3.0 Ελλάδα