Αντιστοίχιση οντοτήτων με αποτελεσματικές και αποδοτικές προσεγγίσεις: από τη συντακτική αντιστοίχιση στα μεγάλα γλωσσικά μοντέλα

Περίληψη

Η Αντιστοίχιση Οντοτήτων (ER) ορίζεται ως το πρόβλημα της ανίχνευσης εγγραφών από διαφορετικές πηγές που αναφέρονται στην ίδια οντότητα στον πραγματικό κόσμο. Σε πολλές εφαρμογές, οι οντότητες αποτελούνται από πεδία που περιέχουν κείμενο ή χαρακτηρίζονται από μία ενιαία περιγραφή που περιέχει όλα τα επιμέρους πεδία. Έπειτα, αξιοποιούν τεχνικές Επεξεργασίας Φυσικής Γλώσσας (NLP), όπως συναρτήσεις ομοιότητας ή Γλωσσικά Μοντέλα, για να εντοπίσουν πιθανές αντιστοιχίες. Η εξέλιξη του κλάδου στο NLP και, συγκεκριμένα, η εμφάνιση των Μεγάλων Γλωσσικών Μοντέλων (LLMs) έχουν συνεισφέρει σημαντικά στην ανάπτυξη του ER, μετατοπίζοντας το ενδιαφέρον από τις συντακτικές ομοιότητες σε βαθύτερες σημασιολογικές συσχετίσεις και στη γενίκευση των μεθόδων σε δεδομένα διαφορετικού αντικειμένου. Στη διατριβή αυτή μελετάμε σύγχρονες προκλήσεις του ER αξιοποιώντας μοντέρνες μεθόδους του NLP μέσα από τέσσερις συνεισφορές. Αρχικά, στο TokenJoin εισάγουμε μία νέα μέθοδο για αντιστοίχιση συνόλων βάσει ομοιότητας ...
περισσότερα

Περίληψη σε άλλη γλώσσα

Entity Resolution (ER) is the task of identifying and linking records that refer to the same real-world entity across different data sources. In many applications, entities include textual attributes or are entirely serialized into a single text field and utilize various Natural Language Processing (NLP) techniques—such as similarity functions or Language Models—to detect possible matches. The recent progress in NLP, and particularly the introduction of Large Language Models (LLMs), has significantly advanced the capabilities of ER systems, shifting the focus from surface-level syntactic similarity to deeper semantic reasoning and generalization across domains. This thesis addresses key challenges in Entity Resolution (ER) by leveraging modern NLP techniques, presenting four main contributions. First, TokenJoin introduces a novel method for set similarity joins using maximum weighted bipartite matching, suggesting lightweight and effective token-based filtering. Second, we conduct an i ...
περισσότερα
Η διατριβή είναι δεσμευμένη από τον συγγραφέα  (μέχρι και: 7/2026)
DOI
10.12681/eadd/60702
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/60702
ND
60702
Εναλλακτικός τίτλος
Effective and efficient entity resolution: from syntactic similarity to large language models
Συγγραφέας
Ζεάκης, Αλέξανδρος (Πατρώνυμο: Φανούριος)
Ημερομηνία
12/2025
Ίδρυμα
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (ΕΚΠΑ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής και Τηλεπικοινωνιών
Εξεταστική επιτροπή
Κουμπαράκης Μανόλης
Ιωαννίδης Γιάννης
Σκούτας Δημήτριος
Γουνόπουλος Δημήτρης
Ντούλας Αλέξανδρος
Κούτρικα Γεωργία
Σαχαρίδης Δημήτρης
Επιστημονικό πεδίο
Φυσικές ΕπιστήμεςΕπιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Πληροφοριακά συστήματα
Λέξεις-κλειδιά
Αντιστοίχιση Οντοτήτων; Γλωσσικά μοντέλα
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Άλλα στοιχεία
πιν., σχημ., γραφ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.