Περίληψη
Αυτή η διατριβή παρουσιάζει πρωτότυπη έρευνα στους τομείς των επιστημών της πληροφορικής και της βιβλιοθηκονομίας, και συγκεκριμένα στον τομέα της ανακάλυψης γνώσης από ακαδημαϊκές δημοσιεύσεις. Η ανακάλυψη γνώσης από ακαδημαϊκές δημοσιεύσεις συγκεντρώνει πολλαπλά ερωτήματα από διαφορετικά ερευνητικά πεδία, όπως ανάκτηση πληροφοριών, μηχανική μάθηση και επεξεργασία φυσικής γλώσσας, και στοχεύει στην κατανόηση, προώθηση και χρήση του δημοσιευμένου επιστημονικού υλικού για την αποτελεσματικότερη αντιμετώπιση των προβλημάτων της κοινωνίας μας. Τα προϊόντα αυτού του ερευνητικού πεδίου είναι νέοι αλγόριθμοι και μέθοδοι που διερευνούν, αναλύουν και χρησιμοποιούν τις πληροφορίες που βρίσκονται στις επιστημονικές δημοσιεύσεις πιο αποτελεσματικά, γρηγορότερα και με ευκολία. Η συμβολή μας αφορά την ανακάλυψη γνώσης από ακαδημαϊκές εκδόσεις σε τέσσερις διαφορετικά προβλήματα: ανάκτηση ολικής ανάκλησης, σημασιολογική δεικτοδότηση, πρόσβαση σε βιβλιογραφικές πηγές και ανάλυση αυτό-παραπομπών. Τα κο ...
Αυτή η διατριβή παρουσιάζει πρωτότυπη έρευνα στους τομείς των επιστημών της πληροφορικής και της βιβλιοθηκονομίας, και συγκεκριμένα στον τομέα της ανακάλυψης γνώσης από ακαδημαϊκές δημοσιεύσεις. Η ανακάλυψη γνώσης από ακαδημαϊκές δημοσιεύσεις συγκεντρώνει πολλαπλά ερωτήματα από διαφορετικά ερευνητικά πεδία, όπως ανάκτηση πληροφοριών, μηχανική μάθηση και επεξεργασία φυσικής γλώσσας, και στοχεύει στην κατανόηση, προώθηση και χρήση του δημοσιευμένου επιστημονικού υλικού για την αποτελεσματικότερη αντιμετώπιση των προβλημάτων της κοινωνίας μας. Τα προϊόντα αυτού του ερευνητικού πεδίου είναι νέοι αλγόριθμοι και μέθοδοι που διερευνούν, αναλύουν και χρησιμοποιούν τις πληροφορίες που βρίσκονται στις επιστημονικές δημοσιεύσεις πιο αποτελεσματικά, γρηγορότερα και με ευκολία. Η συμβολή μας αφορά την ανακάλυψη γνώσης από ακαδημαϊκές εκδόσεις σε τέσσερις διαφορετικά προβλήματα: ανάκτηση ολικής ανάκλησης, σημασιολογική δεικτοδότηση, πρόσβαση σε βιβλιογραφικές πηγές και ανάλυση αυτό-παραπομπών. Τα κοινά στοιχεία σε αυτές τις εργασίες είναι η χρήση ακατέργαστων δεδομένων που προέρχονται από δημοσιεύσεις και η ανάπτυξη νέων μεθόδων μηχανικής μάθησης. Ο τομέας εφαρμογής της διατριβής είναι οι ακαδημαϊκές δημοσιεύσεις αλλά οι μέθοδοι που αναπτύχθηκαν μπορούν εύκολα να εφαρμοστούν σε άλλα πεδία όπου τα έγγραφα κειμένου είναι η κύρια πηγή δεδομένων. Πρώτον, παρουσιάζουμε μια νέα προσέγγιση για την αξιολόγηση εγγράφων που στοχεύει να βοηθήσει τους ερευνητές να δημιουργήσουν συστηματικές βιβλιογραφικές ανασκοπήσεις. Η προσέγγισή μας ανακτά και κατατάσσει αποτελεσματικά έγγραφα με βάση ένα ερώτημα, χρησιμοποιώντας τεχνικές learning-to-rank μαζί με μια επαναληπτική μέθοδο ανατροφοδότησης. Δεύτερον, παρουσιάζουμε μια προσέγγιση πολλαπλών ετικετών για την ταξινόμηση βιοϊατρικών εικόνων. Αυτή η μέθοδος δεν χρησιμοποιεί έναν αλγόριθμο διαχωρισμού εικόνων και χρησιμοποιεί οπτικά χαρακτηριστικά καθώς και χαρακτηριστικά κειμένου. Τρίτον, προτείνουμε μια καινοτόμο προσέγγιση εντοπισμού ρομπότ του διαδικτύου που λαμβάνει υπόψη το περιεχόμενο ενός ιστότοπου. Η κύρια συνεισφορά μας είναι μια νέα αναπαράσταση για διαδικτυακές συνεδρίες, βασισμένη στο LDA, που ποσοτικοποιεί τη σημασιολογική διακύμανση του περιεχομένου ιστού μιας συνεδρίας. Τέλος, παρουσιάζουμε έναν νέο τρόπο ανίχνευσης δυνητικά μη θεμιτών αυτό-παραπομπών με βάση τη σημασιολογική ομοιότητα μιας εργασίας και των παραπομπών αυτής. Παρουσιάζουμε τη βαθμολογία ReLy, η οποία βασίζεται σε sentence embeddings και ποσοτικοποιεί τη σημασιολογική ομοιότητα άρθρου-παραπομπής. Όλες οι παραπάνω προσεγγίσεις αξιολογούνται και συγκρίνονται με αντίστοιχες κορυφαίες μεθόδους, σε πολλαπλές πειραματικές ρυθμίσεις και με δεδομένα που προέρχονται από τον πραγματικό κόσμο. Τα αποτελέσματα καταδεικνύουν σημαντικές βελτιώσεις ή νέα ευρήματα σε όλες τις περιπτώσεις και δημοσιεύουμε, σε πολλές περιπτώσεις, τα σύνολα δεδομένων που χρησιμοποιούνται για ενθάρρυνση της διαφάνειας και της μελλοντικής έρευνας.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis presents original research in the area of information and library sciences, and more specifically in the field of knowledge discovery from academic publications. Knowledge discovery from academic publications brings together multiple tasks from different research fields, such as information retrieval, machine learning, and natural language processing, and aims to understand, advance, and use the published scientific materials to address more effectively the problems of our society. The products of this research field are novel algorithms and methods that explore, analyze and use the information found in scholarly data more effectively, faster, and with ease. Our contribution concerns knowledge discovery from academic publications in four different tasks: total recall retrieval, semantic indexing, accessing bibliographic resources, and analyzing self-citations. The common elements in these tasks are the use of raw data derived from publications and the introduction of novel ...
This thesis presents original research in the area of information and library sciences, and more specifically in the field of knowledge discovery from academic publications. Knowledge discovery from academic publications brings together multiple tasks from different research fields, such as information retrieval, machine learning, and natural language processing, and aims to understand, advance, and use the published scientific materials to address more effectively the problems of our society. The products of this research field are novel algorithms and methods that explore, analyze and use the information found in scholarly data more effectively, faster, and with ease. Our contribution concerns knowledge discovery from academic publications in four different tasks: total recall retrieval, semantic indexing, accessing bibliographic resources, and analyzing self-citations. The common elements in these tasks are the use of raw data derived from publications and the introduction of novel machine learning approaches. The dissertation’s application domain is academic publications; however, the developed methods could easily be applied to other fields where text documents are the main data source. First, we present a novel approach for document screening prioritization that aims to help researchers create systematic literature reviews. Our approach retrieves and efficiently ranks documents based on a given query, employing learning-to-rank techniques along with an iterative feedback method. Second, we introduce a multi-label approach for classifying biomedical figures. This method doesn't use a figure separation algorithm and utilizes both visual and textual features. Third, we propose an innovative web robot detection approach that takes into account the content of a website. Our main contribution is a novel representation for web sessions, based on LDA, that quantifies the semantic variance of the web content requested within a session. Finally, we present a new way for detecting potentially unethical self-citations based on the semantic similarity of a publication and its references. The ReLy score is introduced, which is based on state-of-the-art sentence embeddings and quantifies that quantifies the semantic similarity of article-reference. All the above approaches are evaluated and compared against the relevant state-of-the-art, in multiple experimental settings and with real-world data. The results demonstrate significant improvements or new findings in all cases. We also publish, in many cases, the datasets used to encourage transparency and future research.
περισσότερα