Διαχείριση μεταβολών περιεχομένου ιστοσελίδων ιστού

Αυτή η διατριβή παρουσιάζει ένα πλαίσιο για τη διαχείριση αλλαγής περιεχομένου Ιστού που περιλαμβάνει αριθμό δραστηριοτήτων όπως η παρατήρηση, η ανίχνευση, η ειδοποίηση και η διάδοση των αλλαγών στις σχετικές εξαρτήσεις. Οι εξαρτήσεις θα μπορούσαν να είναι μηχανές αναζήτησης, mirrors sites, ή άτομα. Βασικά, δεδομένου ότι ο Ιστός είναι μια ανεξέλεγκτη συλλογή εγγράφων, Οι μηχανές αναζήτησης, που είναι τα χαρακτηριστικά εργαλεία που χρησιμοποιούνται από τους χρήστες στην ερώτηση για το περιεχόμενο Ιστού, συζητούνται επί μακρόν. Το περιεχόμενο Ιστού, είναι ταξινομημένο σε τρεις κλάσεις: δεδομένα, πληροφορίες και γνώση. Κάθε ένα έχει τα διάφορα χαρακτηριστικά όσον αφορά τον χρόνο και τις προοπτικές πλαισίου. Τα δεδομένα δηλαδή, καθορίζονται ως χωρίς νόημα σημεία. Οι πληροφορίες συνεπάγονται μια κατανόηση των σχέσεων μεταξύ των δεδομένων. Η γνώση ενσωματώνει συνέπεια και πληρότητα των σχέσεων που δημιουργεί το πλαίσιό της. Αυτή η διατριβή, αρχικά, συνοψίζει τους αλγορίθμους αναζήτησης ιστού και τους ταξινομεί; βασισμένους σε δεδομένα, βασισμένους σε πληροφορίες και βασισμένους στη γνώση. Παρέχει μια βάση για το κοινό έδαφος μεταξύ των τεχνικών και για να αναλύσει τις πειραματικές μελέτες στην πράξη. Δηλαδή, μελετήσαμε τις κείμενο-βασισμένες μηχανές αναζήτησης. Και βρήκαμε ότι δεν πληρούν τις ανάγκες των χρηστών. Η ανάπτυξη των αλγορίθμων PageRank και HITS βελτίωσε, σε έναν τρόπο, την ταξινόμηση των αποτελεσμάτων αναζήτησης. Εντούτοις, σύμφωνα με τα πειραματικά αποτελέσματά μας, βρήκαμε ότι η περίπτωση δεν είναι πλήρης οφειλόμενη στις τεράστιες spamming δραστηριότητες. Η εφαρμογή των τεχνικών ανάκτησης πληροφοριών (π.χ., λανθάνουσα σημασιολογική εύρεση) στο περιεχόμενο Ιστού είναι μια ελπιδοφόρος πτυχή. Εφαρμόσαμε μερικά πειράματα χρησιμοποιώντας τη λανθάνουσα σημασιολογική εύρεση (LSI) στο περιεχόμενο Ιστού για να εξαγάγουμε το σημασιολογικό διάνυσμα από τον αριθμό εγγράφων. Παρόλο που έχουμε θετικά αποτελέσματα στην ανάκληση και την ακρίβεια. Η ταχύτητα, το διάστημα και η αναπροσαρμογή ήταν οι βασικές ανεπάρκειες αυτής της τεχνικής. Γενικά, οι μηχανές αναζήτησης Ιστού έχουν τις προκλήσεις στην ταξινόμηση, την εύρεση, το crawling και τη διαχείριση των αναπροσαρμογών του περιεχομένου Ιστού. Σε αυτήν την διατριβή, η πρόκληση της διαχείρισης των αλλαγών Ιστού συζητείται επί μακρόν και τρεις προσεγγίσεις εξετάζονται: τράβηγμα των αναπροσαρμογών από τις μηχανές αναζήτησης, ενίσχυση του crawler των μηχανών αναζήτησης από ένα είδος αναπροσαρμογών Meta, και ώθηση των αναπροσαρμογών από τους κεντρικούς υπολογιστές Ιστού προς τις μηχανές αναζήτησης. Έχει βρεθεί ότι ενώ οι αναπροσαρμογές Meta βοήθησαν στην αποφυγή του άχρηστου crawling και έτσι εκτός από τα στοιχεία συμπεριφοράς των μηχανών αναζήτησης και των κεντρικών υπολογιστών Ιστού, η ώθηση των αναπροσαρμογών από τους κεντρικούς υπολογιστές Ιστού είναι επίσης μια σχετικά βέλτιστη εναλλακτική λύση δεδομένου ότι διανέμει την ευθύνη της διαχείρισης αλλαγής περιεχομένου Ιστού και δημιουργεί ένα είδος διαπραγμάτευσης μεταξύ των μηχανών αναζήτησης και των κεντρικών υπολογιστών Ιστού. Οι αλλαγές Ιστού θα μπορούσαν να είναι σημαντικές ή χωρίς νόημα. Επομένως, διάφορες μετρικές συζητούνται για να μετρήσουν το βαθμό της σπουδαιότητας μιας ενημέρωσης. Ιδιαίτερα, προτείνουμε τον αριθμό μετρικών που βασίζονται στους τύπους αλλαγής. Περαιτέρω, αξιολογήσαμε τη λανθάνουσα σημασιολογική εύρεση (LSI) για να μετρήσουμε τη σημασιολογική απόσταση μεταξύ των ζευγαριών έκδοσης μιας σελίδας. Η προσέγγιση ώθησης αναπροσαρμογών μπορεί να έχει επιπτώσεις στη ροή της δουλειάς της ανάπτυξης περιεχομένου Ιστού, δηλαδή μόλις εμφανιστεί μια αλλαγή στο σύστημα Ιστού πρέπει επίσης να διαδοθεί σε άλλες εξαρτήσεις (π.χ., μηχανή αναζήτησης). Αυτή η διατριβή προτείνει ένα διοικητικό πλαίσιο αλλαγής που περιλαμβάνει μια τέτοια ρύθμιση. Εκτός από τη διαχείριση αλλαγής στο επίπεδο περιεχομένου, το πλαίσιο υποστηρίζει διαχειριστικές δραστηριότητες αλλαγής, αρχικά, τα επίπεδα περιεχομένου εξέλιξης και μια μεθοδολογία που υποστηρίζεται από μια καλή εφαρμογή. Η μεθοδολογία παρουσιάζει την έννοια των καλύτερων πρακτικών που αντιπροσωπεύονται και καταχωρούνται με μια προσιτή μορφή χρησιμοποιώντας τα σημασιολογικά πρότυπα Ιστού. Τέτοιες καλύτερες πρακτικές θεωρούνται ως είδος διαχείρισης γνώσης που μπορεί να συντηρηθεί και να χρησιμοποιηθεί πάλι στα νέα περιβάλλοντα ανάπτυξης, κατά συνέπεια αποταμίευση σημαντικής προσπάθειας και χρόνου. Το σχέδιο και η υλοποίηση μιας ευρείας διαχείρισης αλλαγής που χειρίζεται τις προαναφερθείσες προκλήσεις Ιστού, είναι μια σύνθετη δραστηριότητα, δεδομένου ότι πρέπει να υποστηρίξει το διανεμημένο σχέδιο και τη λειτουργία πολλών ταυτόχρονων δραστηριοτήτων που είναι ιδιαίτερα αμοιβαία εξαρτώμενες. Επιπλέον, τέτοιες δραστηριότητες απαιτούν τη δυνατότητα να προελαύνουν το λογισμικό κληρονομιών, τα σχήματα βάσεων δεδομένων και τις πληροφορίες υπερμεσών όπου η ανάγκη πλαίσιο-εξαρτώμενης εκτέλεσης χρειάζεται. Κατά συνέπεια, ένα πλαίσιο βασισμένο σε πράκτορα για τη διαχείριση αλλαγής Ιστού εισάγεται, όπου ένα σύνολο πρακτόρων συνεργάζεται με τους κεντρικούς υπολογιστές Ιστού και τις μηχανές αναζήτησης για να διαχειριστεί τις αλλαγές του περιεχομένου Ιστού. Και να παρέχει μια πλήρη λεπτομέρεια που περιλαμβάνει μια συστηματική μεθοδολογία ενώ αναλύοντας, σχεδιάζοντας και υλοποιώντας το προτεινόμενο σύστημα πολυ-πρακτόρων. Ότι αφορά το σημασιολογικά Ιστό και τα συστήματα που βασίζονται σε πράκτορες χρησιμοποιούνται, δηλαδή, Γλώσσα επικοινωνίας πρακτόρων (ACL), θεμέλια οικοδομής για τα ευφυή φυσικά πρότυπα πρακτόρων (FIPA), και το περιβάλλον ανάπτυξης πρακτόρων της Javaς (JADE). Η εργασία αυτού του συστήματος καταδεικνύεται μέσω ενός σεναρίου μελέτης περίπτωσης που περιλαμβάνει τον ελέγχο στις αλλαγές των σελίδων Ιστού. Το σύστημα παρέχει διάφορες υπηρεσίες στους developers, χρήστες, μηχανές αναζήτησης.

περισσότερα

Περίληψη σε άλλη γλώσσα

This thesis has four main parts: • Part I (i.e., chapters 2 and 3) introduces a broad background of Web platform that includes HTTP protocol, markup languages and Web content types. We classified Web content into three types: (l) Data with no context, represented in plain text files (2) Information with a relationship between data, which depends largely on context for its meaning (3) Knowledge that is self- contextualizing. Based on this, we discussed current search engines and classified them into three generations: text-based, information-based and knowledge-based search engines. Text-based search engines have no state of art in their searching algorithms. Information-based search engines analyze the link structure at Web-level and use latent semantic indexing at document level. Semantic Web standards (e.g., XML, RDF, and OIL+DAML) are used as key drivers for knowledge-based search engines. • Part II (Chapters 4 and 5) handles the problem of content freshness and update at the search engine side. To keep search engines current, they should be notified about the behaviour of the Web pages: how are they created, updated, deleted and so on. To achieve this, we monitor Web content from time and meaningfulness perspectives. For the time perspective, we proposed Meta updates to create a kind of coordination between a Web site and a search engine. We evaluated experimentally the proposed approach by comparing the results of crawling the same set of Web pages in two modes (1) Crawling with Meta updates (2) Typical crawling. The experiments showed that supporting a crawler Meta updates increases the freshness average by 45%. The approach has a trade-off between the cost of crawling and the degree of freshness for pages with high change frequency. For such cases we propose pushing updates via the “Web Monitor” tool that we have developed. The tool monitors the changes of pages and alerts the user whether to submit the current update to search engine(s) or not. As for the meaningfulness perspective, we define the importance of a change in terms of three factors. (1) The syntactical similarity between a page and its successive version, which views pages as set of shingles. (2) Semantical similarity by using Latent Semantic Indexing that represents pages as vectors and measures how a page is semantically close to its modified version. The experiments showed that Latent Semantic Indexing is closer to the human judgement of detecting meaningful updates. (3) The importance of the page itself in terms of its location in the publication tree and its hit frequency by users. Web Monitor tool was supported with the diff tools (e.g., LSIdiff, Location, hit frequency and syntactical diff). • Part III (Chapter 6) defines two concepts in managing Web content at managerial level (1) A methodology with itemized phases of content development and maintenance (2) Representing the know-how best practices in an accessible form to ensure interoperability. We serialized some standards of Semantic Web (e.g., RDF and OIL) to achieve this requirement. • Part IV (Chapter 7) models a framework for Web content management systems in terms of a set of agents (e.g., Monitor, Diff, Notify, and Log).

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (43.41 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/16658
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/16658
ND	16658
Εναλλακτικός τίτλος	Web content change management
Συγγραφέας	Hattab, Ezzeddin
Ημερομηνία	2002
Ίδρυμα	Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής
Εξεταστική επιτροπή	Αφράτη Φώτω Βασιλείου Ιωάννης Συκάς Ευστάθιος Λούμος Βασίλειος Καγιάφας Ελευθέριος Στασινόπουλος Γεώργιος Σκορδαλάκης Εμμανουήλ
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Διαχείριση μεταβολών περιεχόμενου ιστού; Διαχείριση περιεχόμενου; Παρακολούθηση ιστού; Ανίχνευση αλλαγής; Αναζήτηση ιστού; Γενιές μηχανών αναζήτησης; Διαχείριση αλλαγής με χρήση πρακτόρων; Ανίχνευση μεταβολών με LSI
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	163 σ., εικ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Εξόρυξη και διαχείριση σημασιολογικής πληροφορίας στον παγκόσμιο ιστό

Ολοκλήρωση σχημάτων μεταδεδομένων πολιτισμικής πληροφορίας με τη χρήση της οντολογίας CIDOC CRM

Dissemination of knowledge from small museums and similar organizations: reusable human and machine understandable content models for non-technical humanities scholars

Μία τεχνολογικά υποστηριζόμενη διδακτική προσέγγιση για τον αντικειμενοστρεφή προγραμματισμό

Ανάπτυξη τεχνικής αξιολόγησης ευχρηστίας για ηλεκτρονικό εκπαιδευτικό περιεχόμενο

Εισαγωγή των τεχνολογιών της πληροφορίας και της επικοινωνίας στην εκπαίδευση: η περίπτωση αξιοποίησης εκπαιδευτικού λογισμικού στη μαθηματική εκπαίδευση στο ελληνικό γυμνάσιο και η σημασία του εκπαιδευτικού σεναρίου

Σχεδίαση αλληλεπιδραστικών μαθημάτων διαδικτυακής εκπαίδευσης με αξιοποίηση σχεδιαστικών χναριών

Μέθοδοι και εργαλεία ανάπτυξης και διαχείρισης σχεδίων διδασκαλίας - μάθησης και εκπαιδευτικού υλικού στο διαδίκτυο

Μέθοδοι και συστήματα για την ανοικτή πρόσβαση, το διαμοιρασμό και την επαναχρησιμοποίηση ψηφιακού εκπαιδευτικού περιεχομένου και εκπαιδευτικών δραστηριοτήτων

Ευχρηστία διαδικτύου: σχεδιασμός ιστοτόπων με βάση γνωσιακά μοντέλα διαδραστικής αναζήτησης πληροφορίας

"Διαχείριση μεταβολών περιεχομένου ιστοσελίδων ιστού"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .