Περίληψη
Αυτή η διατριβή παρουσιάζει ένα πλαίσιο για τη διαχείριση αλλαγής περιεχομένου Ιστού που περιλαμβάνει αριθμό δραστηριοτήτων όπως η παρατήρηση, η ανίχνευση, η ειδοποίηση και η διάδοση των αλλαγών στις σχετικές εξαρτήσεις. Οι εξαρτήσεις θα μπορούσαν να είναι μηχανές αναζήτησης, mirrors sites, ή άτομα. Βασικά, δεδομένου ότι ο Ιστός είναι μια ανεξέλεγκτη συλλογή εγγράφων, Οι μηχανές αναζήτησης, που είναι τα χαρακτηριστικά εργαλεία που χρησιμοποιούνται από τους χρήστες στην ερώτηση για το περιεχόμενο Ιστού, συζητούνται επί μακρόν. Το περιεχόμενο Ιστού, είναι ταξινομημένο σε τρεις κλάσεις: δεδομένα, πληροφορίες και γνώση. Κάθε ένα έχει τα διάφορα χαρακτηριστικά όσον αφορά τον χρόνο και τις προοπτικές πλαισίου. Τα δεδομένα δηλαδή, καθορίζονται ως χωρίς νόημα σημεία. Οι πληροφορίες συνεπάγονται μια κατανόηση των σχέσεων μεταξύ των δεδομένων. Η γνώση ενσωματώνει συνέπεια και πληρότητα των σχέσεων που δημιουργεί το πλαίσιό της. Αυτή η διατριβή, αρχικά, συνοψίζει τους αλγορίθμους αναζήτησης ιστού ...
Αυτή η διατριβή παρουσιάζει ένα πλαίσιο για τη διαχείριση αλλαγής περιεχομένου Ιστού που περιλαμβάνει αριθμό δραστηριοτήτων όπως η παρατήρηση, η ανίχνευση, η ειδοποίηση και η διάδοση των αλλαγών στις σχετικές εξαρτήσεις. Οι εξαρτήσεις θα μπορούσαν να είναι μηχανές αναζήτησης, mirrors sites, ή άτομα. Βασικά, δεδομένου ότι ο Ιστός είναι μια ανεξέλεγκτη συλλογή εγγράφων, Οι μηχανές αναζήτησης, που είναι τα χαρακτηριστικά εργαλεία που χρησιμοποιούνται από τους χρήστες στην ερώτηση για το περιεχόμενο Ιστού, συζητούνται επί μακρόν. Το περιεχόμενο Ιστού, είναι ταξινομημένο σε τρεις κλάσεις: δεδομένα, πληροφορίες και γνώση. Κάθε ένα έχει τα διάφορα χαρακτηριστικά όσον αφορά τον χρόνο και τις προοπτικές πλαισίου. Τα δεδομένα δηλαδή, καθορίζονται ως χωρίς νόημα σημεία. Οι πληροφορίες συνεπάγονται μια κατανόηση των σχέσεων μεταξύ των δεδομένων. Η γνώση ενσωματώνει συνέπεια και πληρότητα των σχέσεων που δημιουργεί το πλαίσιό της. Αυτή η διατριβή, αρχικά, συνοψίζει τους αλγορίθμους αναζήτησης ιστού και τους ταξινομεί; βασισμένους σε δεδομένα, βασισμένους σε πληροφορίες και βασισμένους στη γνώση. Παρέχει μια βάση για το κοινό έδαφος μεταξύ των τεχνικών και για να αναλύσει τις πειραματικές μελέτες στην πράξη. Δηλαδή, μελετήσαμε τις κείμενο-βασισμένες μηχανές αναζήτησης. Και βρήκαμε ότι δεν πληρούν τις ανάγκες των χρηστών. Η ανάπτυξη των αλγορίθμων PageRank και HITS βελτίωσε, σε έναν τρόπο, την ταξινόμηση των αποτελεσμάτων αναζήτησης. Εντούτοις, σύμφωνα με τα πειραματικά αποτελέσματά μας, βρήκαμε ότι η περίπτωση δεν είναι πλήρης οφειλόμενη στις τεράστιες spamming δραστηριότητες. Η εφαρμογή των τεχνικών ανάκτησης πληροφοριών (π.χ., λανθάνουσα σημασιολογική εύρεση) στο περιεχόμενο Ιστού είναι μια ελπιδοφόρος πτυχή. Εφαρμόσαμε μερικά πειράματα χρησιμοποιώντας τη λανθάνουσα σημασιολογική εύρεση (LSI) στο περιεχόμενο Ιστού για να εξαγάγουμε το σημασιολογικό διάνυσμα από τον αριθμό εγγράφων. Παρόλο που έχουμε θετικά αποτελέσματα στην ανάκληση και την ακρίβεια. Η ταχύτητα, το διάστημα και η αναπροσαρμογή ήταν οι βασικές ανεπάρκειες αυτής της τεχνικής. Γενικά, οι μηχανές αναζήτησης Ιστού έχουν τις προκλήσεις στην ταξινόμηση, την εύρεση, το crawling και τη διαχείριση των αναπροσαρμογών του περιεχομένου Ιστού. Σε αυτήν την διατριβή, η πρόκληση της διαχείρισης των αλλαγών Ιστού συζητείται επί μακρόν και τρεις προσεγγίσεις εξετάζονται: τράβηγμα των αναπροσαρμογών από τις μηχανές αναζήτησης, ενίσχυση του crawler των μηχανών αναζήτησης από ένα είδος αναπροσαρμογών Meta, και ώθηση των αναπροσαρμογών από τους κεντρικούς υπολογιστές Ιστού προς τις μηχανές αναζήτησης. Έχει βρεθεί ότι ενώ οι αναπροσαρμογές Meta βοήθησαν στην αποφυγή του άχρηστου crawling και έτσι εκτός από τα στοιχεία συμπεριφοράς των μηχανών αναζήτησης και των κεντρικών υπολογιστών Ιστού, η ώθηση των αναπροσαρμογών από τους κεντρικούς υπολογιστές Ιστού είναι επίσης μια σχετικά βέλτιστη εναλλακτική λύση δεδομένου ότι διανέμει την ευθύνη της διαχείρισης αλλαγής περιεχομένου Ιστού και δημιουργεί ένα είδος διαπραγμάτευσης μεταξύ των μηχανών αναζήτησης και των κεντρικών υπολογιστών Ιστού. Οι αλλαγές Ιστού θα μπορούσαν να είναι σημαντικές ή χωρίς νόημα. Επομένως, διάφορες μετρικές συζητούνται για να μετρήσουν το βαθμό της σπουδαιότητας μιας ενημέρωσης. Ιδιαίτερα, προτείνουμε τον αριθμό μετρικών που βασίζονται στους τύπους αλλαγής. Περαιτέρω, αξιολογήσαμε τη λανθάνουσα σημασιολογική εύρεση (LSI) για να μετρήσουμε τη σημασιολογική απόσταση μεταξύ των ζευγαριών έκδοσης μιας σελίδας. Η προσέγγιση ώθησης αναπροσαρμογών μπορεί να έχει επιπτώσεις στη ροή της δουλειάς της ανάπτυξης περιεχομένου Ιστού, δηλαδή μόλις εμφανιστεί μια αλλαγή στο σύστημα Ιστού πρέπει επίσης να διαδοθεί σε άλλες εξαρτήσεις (π.χ., μηχανή αναζήτησης). Αυτή η διατριβή προτείνει ένα διοικητικό πλαίσιο αλλαγής που περιλαμβάνει μια τέτοια ρύθμιση. Εκτός από τη διαχείριση αλλαγής στο επίπεδο περιεχομένου, το πλαίσιο υποστηρίζει διαχειριστικές δραστηριότητες αλλαγής, αρχικά, τα επίπεδα περιεχομένου εξέλιξης και μια μεθοδολογία που υποστηρίζεται από μια καλή εφαρμογή. Η μεθοδολογία παρουσιάζει την έννοια των καλύτερων πρακτικών που αντιπροσωπεύονται και καταχωρούνται με μια προσιτή μορφή χρησιμοποιώντας τα σημασιολογικά πρότυπα Ιστού. Τέτοιες καλύτερες πρακτικές θεωρούνται ως είδος διαχείρισης γνώσης που μπορεί να συντηρηθεί και να χρησιμοποιηθεί πάλι στα νέα περιβάλλοντα ανάπτυξης, κατά συνέπεια αποταμίευση σημαντικής προσπάθειας και χρόνου. Το σχέδιο και η υλοποίηση μιας ευρείας διαχείρισης αλλαγής που χειρίζεται τις προαναφερθείσες προκλήσεις Ιστού, είναι μια σύνθετη δραστηριότητα, δεδομένου ότι πρέπει να υποστηρίξει το διανεμημένο σχέδιο και τη λειτουργία πολλών ταυτόχρονων δραστηριοτήτων που είναι ιδιαίτερα αμοιβαία εξαρτώμενες. Επιπλέον, τέτοιες δραστηριότητες απαιτούν τη δυνατότητα να προελαύνουν το λογισμικό κληρονομιών, τα σχήματα βάσεων δεδομένων και τις πληροφορίες υπερμεσών όπου η ανάγκη πλαίσιο-εξαρτώμενης εκτέλεσης χρειάζεται. Κατά συνέπεια, ένα πλαίσιο βασισμένο σε πράκτορα για τη διαχείριση αλλαγής Ιστού εισάγεται, όπου ένα σύνολο πρακτόρων συνεργάζεται με τους κεντρικούς υπολογιστές Ιστού και τις μηχανές αναζήτησης για να διαχειριστεί τις αλλαγές του περιεχομένου Ιστού. Και να παρέχει μια πλήρη λεπτομέρεια που περιλαμβάνει μια συστηματική μεθοδολογία ενώ αναλύοντας, σχεδιάζοντας και υλοποιώντας το προτεινόμενο σύστημα πολυ-πρακτόρων. Ότι αφορά το σημασιολογικά Ιστό και τα συστήματα που βασίζονται σε πράκτορες χρησιμοποιούνται, δηλαδή, Γλώσσα επικοινωνίας πρακτόρων (ACL), θεμέλια οικοδομής για τα ευφυή φυσικά πρότυπα πρακτόρων (FIPA), και το περιβάλλον ανάπτυξης πρακτόρων της Javaς (JADE). Η εργασία αυτού του συστήματος καταδεικνύεται μέσω ενός σεναρίου μελέτης περίπτωσης που περιλαμβάνει τον ελέγχο στις αλλαγές των σελίδων Ιστού. Το σύστημα παρέχει διάφορες υπηρεσίες στους developers, χρήστες, μηχανές αναζήτησης.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis has four main parts: • Part I (i.e., chapters 2 and 3) introduces a broad background of Web platform that includes HTTP protocol, markup languages and Web content types. We classified Web content into three types: (l) Data with no context, represented in plain text files (2) Information with a relationship between data, which depends largely on context for its meaning (3) Knowledge that is self- contextualizing. Based on this, we discussed current search engines and classified them into three generations: text-based, information-based and knowledge-based search engines. Text-based search engines have no state of art in their searching algorithms. Information-based search engines analyze the link structure at Web-level and use latent semantic indexing at document level. Semantic Web standards (e.g., XML, RDF, and OIL+DAML) are used as key drivers for knowledge-based search engines. • Part II (Chapters 4 and 5) handles the problem of content freshness and update at the search ...
This thesis has four main parts: • Part I (i.e., chapters 2 and 3) introduces a broad background of Web platform that includes HTTP protocol, markup languages and Web content types. We classified Web content into three types: (l) Data with no context, represented in plain text files (2) Information with a relationship between data, which depends largely on context for its meaning (3) Knowledge that is self- contextualizing. Based on this, we discussed current search engines and classified them into three generations: text-based, information-based and knowledge-based search engines. Text-based search engines have no state of art in their searching algorithms. Information-based search engines analyze the link structure at Web-level and use latent semantic indexing at document level. Semantic Web standards (e.g., XML, RDF, and OIL+DAML) are used as key drivers for knowledge-based search engines. • Part II (Chapters 4 and 5) handles the problem of content freshness and update at the search engine side. To keep search engines current, they should be notified about the behaviour of the Web pages: how are they created, updated, deleted and so on. To achieve this, we monitor Web content from time and meaningfulness perspectives. For the time perspective, we proposed Meta updates to create a kind of coordination between a Web site and a search engine. We evaluated experimentally the proposed approach by comparing the results of crawling the same set of Web pages in two modes (1) Crawling with Meta updates (2) Typical crawling. The experiments showed that supporting a crawler Meta updates increases the freshness average by 45%. The approach has a trade-off between the cost of crawling and the degree of freshness for pages with high change frequency. For such cases we propose pushing updates via the “Web Monitor” tool that we have developed. The tool monitors the changes of pages and alerts the user whether to submit the current update to search engine(s) or not. As for the meaningfulness perspective, we define the importance of a change in terms of three factors. (1) The syntactical similarity between a page and its successive version, which views pages as set of shingles. (2) Semantical similarity by using Latent Semantic Indexing that represents pages as vectors and measures how a page is semantically close to its modified version. The experiments showed that Latent Semantic Indexing is closer to the human judgement of detecting meaningful updates. (3) The importance of the page itself in terms of its location in the publication tree and its hit frequency by users. Web Monitor tool was supported with the diff tools (e.g., LSIdiff, Location, hit frequency and syntactical diff). • Part III (Chapter 6) defines two concepts in managing Web content at managerial level (1) A methodology with itemized phases of content development and maintenance (2) Representing the know-how best practices in an accessible form to ensure interoperability. We serialized some standards of Semantic Web (e.g., RDF and OIL) to achieve this requirement. • Part IV (Chapter 7) models a framework for Web content management systems in terms of a set of agents (e.g., Monitor, Diff, Notify, and Log).
περισσότερα