Knowledge discovery from academic publications

Αυτή η διατριβή παρουσιάζει πρωτότυπη έρευνα στους τομείς των επιστημών της πληροφορικής και της βιβλιοθηκονομίας, και συγκεκριμένα στον τομέα της ανακάλυψης γνώσης από ακαδημαϊκές δημοσιεύσεις. Η ανακάλυψη γνώσης από ακαδημαϊκές δημοσιεύσεις συγκεντρώνει πολλαπλά ερωτήματα από διαφορετικά ερευνητικά πεδία, όπως ανάκτηση πληροφοριών, μηχανική μάθηση και επεξεργασία φυσικής γλώσσας, και στοχεύει στην κατανόηση, προώθηση και χρήση του δημοσιευμένου επιστημονικού υλικού για την αποτελεσματικότερη αντιμετώπιση των προβλημάτων της κοινωνίας μας. Τα προϊόντα αυτού του ερευνητικού πεδίου είναι νέοι αλγόριθμοι και μέθοδοι που διερευνούν, αναλύουν και χρησιμοποιούν τις πληροφορίες που βρίσκονται στις επιστημονικές δημοσιεύσεις πιο αποτελεσματικά, γρηγορότερα και με ευκολία. Η συμβολή μας αφορά την ανακάλυψη γνώσης από ακαδημαϊκές εκδόσεις σε τέσσερις διαφορετικά προβλήματα: ανάκτηση ολικής ανάκλησης, σημασιολογική δεικτοδότηση, πρόσβαση σε βιβλιογραφικές πηγές και ανάλυση αυτό-παραπομπών. Τα κοινά στοιχεία σε αυτές τις εργασίες είναι η χρήση ακατέργαστων δεδομένων που προέρχονται από δημοσιεύσεις και η ανάπτυξη νέων μεθόδων μηχανικής μάθησης. Ο τομέας εφαρμογής της διατριβής είναι οι ακαδημαϊκές δημοσιεύσεις αλλά οι μέθοδοι που αναπτύχθηκαν μπορούν εύκολα να εφαρμοστούν σε άλλα πεδία όπου τα έγγραφα κειμένου είναι η κύρια πηγή δεδομένων. Πρώτον, παρουσιάζουμε μια νέα προσέγγιση για την αξιολόγηση εγγράφων που στοχεύει να βοηθήσει τους ερευνητές να δημιουργήσουν συστηματικές βιβλιογραφικές ανασκοπήσεις. Η προσέγγισή μας ανακτά και κατατάσσει αποτελεσματικά έγγραφα με βάση ένα ερώτημα, χρησιμοποιώντας τεχνικές learning-to-rank μαζί με μια επαναληπτική μέθοδο ανατροφοδότησης. Δεύτερον, παρουσιάζουμε μια προσέγγιση πολλαπλών ετικετών για την ταξινόμηση βιοϊατρικών εικόνων. Αυτή η μέθοδος δεν χρησιμοποιεί έναν αλγόριθμο διαχωρισμού εικόνων και χρησιμοποιεί οπτικά χαρακτηριστικά καθώς και χαρακτηριστικά κειμένου. Τρίτον, προτείνουμε μια καινοτόμο προσέγγιση εντοπισμού ρομπότ του διαδικτύου που λαμβάνει υπόψη το περιεχόμενο ενός ιστότοπου. Η κύρια συνεισφορά μας είναι μια νέα αναπαράσταση για διαδικτυακές συνεδρίες, βασισμένη στο LDA, που ποσοτικοποιεί τη σημασιολογική διακύμανση του περιεχομένου ιστού μιας συνεδρίας. Τέλος, παρουσιάζουμε έναν νέο τρόπο ανίχνευσης δυνητικά μη θεμιτών αυτό-παραπομπών με βάση τη σημασιολογική ομοιότητα μιας εργασίας και των παραπομπών αυτής. Παρουσιάζουμε τη βαθμολογία ReLy, η οποία βασίζεται σε sentence embeddings και ποσοτικοποιεί τη σημασιολογική ομοιότητα άρθρου-παραπομπής. Όλες οι παραπάνω προσεγγίσεις αξιολογούνται και συγκρίνονται με αντίστοιχες κορυφαίες μεθόδους, σε πολλαπλές πειραματικές ρυθμίσεις και με δεδομένα που προέρχονται από τον πραγματικό κόσμο. Τα αποτελέσματα καταδεικνύουν σημαντικές βελτιώσεις ή νέα ευρήματα σε όλες τις περιπτώσεις και δημοσιεύουμε, σε πολλές περιπτώσεις, τα σύνολα δεδομένων που χρησιμοποιούνται για ενθάρρυνση της διαφάνειας και της μελλοντικής έρευνας.

περισσότερα

Περίληψη σε άλλη γλώσσα

This thesis presents original research in the area of information and library sciences, and more specifically in the field of knowledge discovery from academic publications. Knowledge discovery from academic publications brings together multiple tasks from different research fields, such as information retrieval, machine learning, and natural language processing, and aims to understand, advance, and use the published scientific materials to address more effectively the problems of our society. The products of this research field are novel algorithms and methods that explore, analyze and use the information found in scholarly data more effectively, faster, and with ease. Our contribution concerns knowledge discovery from academic publications in four different tasks: total recall retrieval, semantic indexing, accessing bibliographic resources, and analyzing self-citations. The common elements in these tasks are the use of raw data derived from publications and the introduction of novel machine learning approaches. The dissertation’s application domain is academic publications; however, the developed methods could easily be applied to other fields where text documents are the main data source. First, we present a novel approach for document screening prioritization that aims to help researchers create systematic literature reviews. Our approach retrieves and efficiently ranks documents based on a given query, employing learning-to-rank techniques along with an iterative feedback method. Second, we introduce a multi-label approach for classifying biomedical figures. This method doesn't use a figure separation algorithm and utilizes both visual and textual features. Third, we propose an innovative web robot detection approach that takes into account the content of a website. Our main contribution is a novel representation for web sessions, based on LDA, that quantifies the semantic variance of the web content requested within a session. Finally, we present a new way for detecting potentially unethical self-citations based on the semantic similarity of a publication and its references. The ReLy score is introduced, which is based on state-of-the-art sentence embeddings and quantifies that quantifies the semantic similarity of article-reference. All the above approaches are evaluated and compared against the relevant state-of-the-art, in multiple experimental settings and with real-world data. The results demonstrate significant improvements or new findings in all cases. We also publish, in many cases, the datasets used to encourage transparency and future research.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (21.48 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/50219
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/50219
ND	50219
Εναλλακτικός τίτλος	Knowledge discovery from academic publications
Συγγραφέας	Λαγόπουλος, Αθανάσιος (Πατρώνυμο: Γεώργιος)
Ημερομηνία	2021
Ίδρυμα	Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Τσουμάκας Γρηγόριος Βακάλη Αθηνά Βλαχάβας Ιωάννης Καλδούδη Ελένη Κανούλας Ευάγγελος Μεδίτσκος Γεώργιος Παπαδόπουλος Απόστολος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη
Λέξεις-κλειδιά	Επιβλεπόμενη μάθηση; Μηχανική μάθηση; Επιστημονικές δημοσιεύσεις; Συστηματικές ανασκοπήσεις; Βιοϊατρικά κείμενα; Βιοϊατρικές εικόνες; Διαδικτυακά ρομπότ; Βιβλιογραφία; Αυτοαναφορά
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Μηχανική μάθηση για την ανάλυση μεγάλων βιολογικών δεδομένων

Identification of fraudulent financial statements using data mining techniques

Forensic accounting: fraud examination and prevention through the identification of fraudster's profile and organizational culture

Διασυνοριακή ροή οικονομικών δεδομένων: νομική προσέγγιση

Χάσματα προσδοκιών ελέγχου αναφορικά με τις αρμοδιότητες των ορκωτών ελεγκτών στην πρόληψη, στον εντοπισμό και την αναφορά της απάτης

Λήψη βέλτιστων αποφάσεων για τη διασφάλιση της ποιότητας των οικονομικών καταστάσεων: εφαρμογές σε λογιστικούς και φορολογικούς ελέγχους

Η επίδραση της πολιτικής καταγγελιών στον εσωτερικό και τον εξωτερικό έλεγχο

Επίδραση της εφαρμογής του εσωτερικού ελέγχου στην ελαχιστοποίηση των φαινομένων απάτης στη σύγχρονη δημόσια διοίκηση: η περίπτωση των δημόσιων ακαδημαϊκών φορέων

Political economy of fiscal reforms: the case of E.M.U.

Deep learning techniques for financial data

"Ανακάλυψη γνώσης από επιστημονικές δημοσιεύσεις"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .