Περίληψη
Η αντιστοίχιση οντοτήτων, επίσης γνωστή ως ανάλυση οντοτήτων, στοχεύει στον προσδιορισμό ζευγαριών περιγραφών από διαφορετικούς γράφους γνώσης που αναφέρονται στην ίδια πραγματική οντότητα. Τα τελευταία χρόνια υπάρχει αυξανόμενο ενδιαφέρον για τη μόχλευση των τεχνικών εκμάθησης αναπαράστασης με στόχο την εύρεση ζευγών οντοτήτων που ταιριάζουν. Η ιδέα είναι να μάθουμε μια συνεχή αναπαράσταση γράφων σε έναν διανυσματικό χώρο χαμηλών διαστάσεων που διατηρεί την ομοιότητα των οντοτήτων (κόμβων) με βάση τις δομικές και τις πληροφορίες γνωρισμάτων στους δύο γράφους. Στη συνέχεια, η εύρεση των οντοτήτων που ταιριάζουν επιλύεται ως ένα πρόβλημα αντιστοίχισης που βασίζεται στην ομοιότητα των παραγόμενων διανυσματικών αναπαραστάσεων των οντοτήτων από διαφορετικές αρχιτεκτονικές νευρωνικών δικτύων. Σε αυτή τη διατριβή δείχνουμε ότι τόσο η δομική ετερογένεια (από την άποψη ανόμοιων και φτωχών γειτονιών) όσο και ετερογένεια ως προς το περιεχόμενο (από την άποψη ανόμοιων χαρακτηριστικών και ονομάτων ...
Η αντιστοίχιση οντοτήτων, επίσης γνωστή ως ανάλυση οντοτήτων, στοχεύει στον προσδιορισμό ζευγαριών περιγραφών από διαφορετικούς γράφους γνώσης που αναφέρονται στην ίδια πραγματική οντότητα. Τα τελευταία χρόνια υπάρχει αυξανόμενο ενδιαφέρον για τη μόχλευση των τεχνικών εκμάθησης αναπαράστασης με στόχο την εύρεση ζευγών οντοτήτων που ταιριάζουν. Η ιδέα είναι να μάθουμε μια συνεχή αναπαράσταση γράφων σε έναν διανυσματικό χώρο χαμηλών διαστάσεων που διατηρεί την ομοιότητα των οντοτήτων (κόμβων) με βάση τις δομικές και τις πληροφορίες γνωρισμάτων στους δύο γράφους. Στη συνέχεια, η εύρεση των οντοτήτων που ταιριάζουν επιλύεται ως ένα πρόβλημα αντιστοίχισης που βασίζεται στην ομοιότητα των παραγόμενων διανυσματικών αναπαραστάσεων των οντοτήτων από διαφορετικές αρχιτεκτονικές νευρωνικών δικτύων. Σε αυτή τη διατριβή δείχνουμε ότι τόσο η δομική ετερογένεια (από την άποψη ανόμοιων και φτωχών γειτονιών) όσο και ετερογένεια ως προς το περιεχόμενο (από την άποψη ανόμοιων χαρακτηριστικών και ονομάτων) των οντοτήτων επηρεάζουν καθοριστικά την αποτελεσματικότητα των μεθόδων αντιστοίχισης που βασίζονται σε διανυσματικές αναπαραστάσεις γράφων, ειδικά όταν αυτοί οι γράφοι εμφανίζουν σε διαφορετικούς βαθμούς και τις δύο μορφές ετερογένειας. Πρέπει να τονιστεί ότι η δομική ποικιλομορφία μπορεί επίσης να οδηγήσει σε άδικες αποφάσεις αντιστοίχισης λόγω ελλιπών γεγονότων ή σχέσεων μεταξύ των οντοτήτων που ανήκουν σε ευαίσθητους πληθυσμούς. Από όσο γνωρίζουμε δεν υπάρχουν προηγούμενες μελέτες που αναλύουν πως η δομική ετερογένεια και η ετερογένεια ως προς το περιεχόμενο δύο γράφων επηρεάζουν την απόδοση και την προκατάληψη των αντιστοιχίσεων. Πιο συγκεκριμένα, προτείνουμε ένα υβριδικό σύστημα που ονομάζεται HybEA, το οποίο εκμεταλλεύεται τόσο τις σχέσεις οντοτήτων όσο και γεγονότων. Το μοντέλου γεγονότων του HybEA είναι ικανό να σταθμίσει τη συμβολή κάθε ιδιότητας στην πρόβλεψη οντοτήτων που ταιριάζουν χρησιμοποιώντας ένα νέο μοντέλο που βασίζεται στην προσοχή το οποίο βασίζεται σε Transformers και σε ενσωματώσεις τιμών χαρακτηριστικών του Sentence-BERT. Στη συνέχεια, μπορούν να δημιουργηθούν πολλά υβρίδια συνδέοντας διαφορετικά δομικά μοντέλα που εκμεταλλεύονται τις σχέσεις που συνδέουν γειτονικές οντότητες σε γράφους γνώσης σε επίπεδο τριπλετών (π.χ. Knowformer) ή γράφων (π.χ. RREA). Καθώς κάθε μοντέλο συστατικού προβλέπει τις δικές του αντιστοιχίσεις οντοτήτων, προτείνουμε ένα νέο ημι-εποπτευόμενο πλαίσιο, όπου σε κάθε επανάληψη, ορισμένα ζεύγη αντιστοίχισης υψηλής εμπιστοσύνης που ανιχνεύονται από κάθε μοντέλο προστίθενται στο σετ εκπαίδευσης που χρησιμοποιείται για την επακόλουθη συνεκπαίδευση και των δύο μοντέλων. Διαισθητικά, το ένα μοντέλο μπορεί να αντισταθμίσει τις χαμένες αντιστοιχίσεις του άλλου, οδηγώντας σε υψηλή προσαρμοστικότητα του HybEA σε διαφορετικούς τύπους και επίπεδα ετερογένειας που παρουσιάζουν οι γράφοι γνώσης σε πραγματικές εφαρμογές.Το HybEA ξεπερνά προηγμένα συστήματα ευθυγράμμισης οντοτήτων, επιτυγχάνοντας μια μέση σχετική βελτίωση της τάξεως του 16% στο Hits@1, με βελτίωση που κυμαίνεται από 3.6% έως 40% σε 5 μονογλωσσικά σύνολα δεδομένων, με κάποια από αυτά να μπορούν πλέον να θεωρηθούν ως επιλυμένα. Επίσης, δείχνουμε ότι το HybEA ξεπερνά τις προηγμένες μεθόδους σε 3 πολυγλωσσικά σύνολα δεδομένων, καθώς και σε 2 σύνολα δεδομένων που απορρίπτουν την μη ρεαλιστική, αλλά ευρέως υιοθετημένη, υπόθεση της αντιστοίχισης ένα προς ένα. Συνολικά, το HybEA ξεπερνά όλες τις (11) μεθόδους αναφοράς σε όλα τα (3) μέτρα και σε όλα τα (10) σύνολα δεδομένων που αξιολογήθηκαν, με στατιστικά σημαντική διαφορά. Για την αξιολόγηση της επίδρασης της δομικής μεροληψίας συστημάτων αντιστοίχισης οντοτήτων, προτείνουμε έναν αλγόριθμο δειγματοληψίας που βασίζεται στην εξερεύνηση, με το όνομα SUSIE, που λαμβάνει δείγματα διαφορετικών γειτονιών των οντοτήτων στην βάση της συνδεσιμότητα των δύο γράφων. Δείχνουμε πειραματικά ότι το HybEA είναι το πιο στιβαρή μέθοδος, παρουσιάζοντας υψηλή ανοχή σε δομικές παραλλαγές (π.χ. το H@1 πέφτει μόνο 8.79% στην πιο ακραία περίπτωση). Στην βάση των προηγούμενων συνεισφορών αναπτύξαμε ένα ολοκληρωμένο σύστημα που επιτρέπει τον πειραματισμό, τόσο με την προσαρμογή των αντιστοιχίσεων σε διαφορετικές πτυχές ετερογένειας που εμφανίζουν πραγματικοί γράφοι γνώσεων όσο και με την αμεροληψία των αντιστοιχίσεων που σχετίζεται με τους διαφορετικούς βαθμούς συνδεσιμότητας των δύο γράφων. Το σύστημα ενσωματώνει το HybEA όσο και τη SUSIE με διαφορετικές μεθόδους διανυσματικής αναπαράστασης γράφων ενώ χρησιμοποιούνται μετρικές στατιστικής αμεροληψίας με τις προστατευόμενες ομάδες να ορίζονται στην βάση των δομικών χαρακτηριστικών των υπο αντιστοίχιση γράφων.
περισσότερα
Περίληψη σε άλλη γλώσσα
Entity alignment (EA), also known as entity resolution (ER), aims to identify pairs of descriptions from different Knowledge Graphs (KGs) that refer to the same real-world entity. In recent years, there has been increasing interest in leveraging representation learning techniques in order to find matching pairs of entities. The idea is to learn a continuous representation of KGs in a low-dimensional vector space that preserves the similarity of entities (nodes) based on the structural and factual information of their descriptions in the two KGs. Then, EA is solved as a similarity-based matching problem of the entity embeddings produced by various Neural Network architectures. In this thesis we show that both structural heterogeneity (in terms of dissimilar and poor neighborhoods) and factual heterogeneity (in terms of dissimilar literal values, names) of entities severely impact the effectiveness embedding-based methods for EA, especially when the two KGs exhibit simultaneously both fo ...
Entity alignment (EA), also known as entity resolution (ER), aims to identify pairs of descriptions from different Knowledge Graphs (KGs) that refer to the same real-world entity. In recent years, there has been increasing interest in leveraging representation learning techniques in order to find matching pairs of entities. The idea is to learn a continuous representation of KGs in a low-dimensional vector space that preserves the similarity of entities (nodes) based on the structural and factual information of their descriptions in the two KGs. Then, EA is solved as a similarity-based matching problem of the entity embeddings produced by various Neural Network architectures. In this thesis we show that both structural heterogeneity (in terms of dissimilar and poor neighborhoods) and factual heterogeneity (in terms of dissimilar literal values, names) of entities severely impact the effectiveness embedding-based methods for EA, especially when the two KGs exhibit simultaneously both forms of heterogeneity at different degrees. It should be stressed that structural diversity may additionally lead to unfair matching decisions due to missing facts or relations of entities belonging to sensitive populations. To our knowledge, no previous work has studied how the factual and structural heterogeneity of KGs affects both EA performance and fairness. More precisely, we propose a hybrid system called HybEA, that exploits both the entity relations and facts. The HybEA factual component is capable of weighting the contribution of each property in the prediction of matching entities using a new attention-based model based on Transformers and contextualized attribute value embeddings of Sentence-BERT. Then, several hybrids can be formed by plugging different structural models that exploit the relations connecting neighbor entities in KGs at the level of triples (e.g., Knowformer or graphs (e.g., RREA). As each component model predicts its own entity alignments, we propose a new semi-supervised framework, where at every iteration, some high-confidence matching pairs detected by each model are added to the training set used for the subsequent co-training of both models. Intuitively, one component model can compensate for lost matches of the other, leading to a high adaptability of HybEA to different types and levels of heterogeneity exhibited by KGs in real applications. HybEA outperforms the state-of-the-art EA systems, achieving a 16% average relative improvement of Hits@1, ranging from 3.6% up to 40% in 5 monolingual datasets, with some datasets that can now be considered as solved. We also show that HybEA outperforms state-of-the-art methods in 3 multi-lingual datasets, as well as on 2 datasets that drop the unrealistic, yet widely adopted, one-to-one assumption. Overall, HybEA outperforms all (11) baseline methods in all (3) measures and in all (10) datasets evaluated, with a statistically significant difference. To assess the robustness of EA systems to structural bias in KGs, we propose an exploration-based sampling algorithm, named SUSIE, which samples subgraphs of varying structural settings based on the connectivity of KGs. We experimentally show that HybEA is the most robust method, exhibiting high tolerance in structural variations (e.g., H@1 drops only 8.79% in the most extreme case). On the basis of our previous contributions, we have developed a fairness-aware end-to-end system that allows experimentation, both on the adaptability of the entity alignments to different aspects of heterogeneity and their robustness to bias related to different connectivity measures of the two KGs. The system incorporates both HybEA and SUSIE, while statistical fairness measures are used, with the protected groups being defined on the basis of the structural characteristics of the two aligned KGs.
περισσότερα