Natural language question answering over knowledge graphs: dependency-based and hybrid approaches for Greek language applications

Οι γράφοι γνώσης (knowledge graphs) επιτρέπουν δομημένη συλλογιστική και ιδιαίτερα εκφραστική υποβολή ερωτημάτων πάνω σε σύνθετη πληροφορία ενός πεδίου, ωστόσο παραμένουν σε μεγάλο βαθμό μη προσβάσιμοι σε χρήστες χωρίς τεχνικό υπόβαθρο, λόγω της απαίτησης χρήσης τυπικών γλωσσών ερωτημάτων όπως οι Cypher και SPARQL. Το πρόβλημα εντείνεται σε γλώσσες μεσαίων πόρων, όπως τα Ελληνικά, όπου η μορφολογική πολυπλοκότητα και η σχετική έλλειψη ώριμων εργαλείων επεξεργασίας φυσικής γλώσσας αυξάνουν τις δυσκολίες τόσο στην κατανόηση της πρόθεσης του χρήστη όσο και στη σημασιολογική αντιστοίχιση της ερώτησης σε δομές γράφου γνώσης. Η παρούσα διατριβή αντιμετωπίζει αυτούς τους περιορισμούς μέσω της ανάπτυξης ενός ενοποιημένου θεωρητικού και μεθοδολογικού πλαισίου για διεπαφές φυσικής γλώσσας προς βάσεις γνώσης τύπου property-graph, με εστίαση σε ερωτήματα στην Ελληνική σε δύο διακριτούς τομείς εφαρμογής. Κεντρικός στόχος του πλαισίου είναι η αξιόπιστη μετάφραση ερωτήσεων φυσικής γλώσσας σε εκτελέσιμα ερωτήματα Cypher, διατηρώντας σημασιολογική συνέπεια μεταξύ της πρόθεσης του χρήστη και του παραγόμενου τυπικού ερωτήματος. Οι βασικές ερευνητικές συνεισφορές της διατριβής είναι οι ακόλουθες: Πρώτον, εισάγει μια μέθοδο ανεξάρτητη από το σχήμα (schema-agnostic) και χωρίς εξάρτηση από πρότυπα (template-free) για τη μετάφραση ερωτημάτων φυσικής γλώσσας σε ερωτήματα Cypher, η οποία δεν απαιτεί δεδομένα εκπαίδευσης (training-free), προκαθορισμένα πρότυπα και χειροκίνητες προδιαγραφές σχήματος της βάσης γνώσης. Η μέθοδος αξιοποιεί το πλαίσιο γραμματικής ανάλυσης Universal Dependencies (UD) για συστηματική συντακτική επεξεργασία της εισόδου ενώ πραγματοποιεί αυτόματη εξαγωγή σχήματος από υπάρχοντες γράφους γνώσης. Συνδυάζοντας τη συντακτική πληροφορία με το εξαγόμενο σχήμα, εντοπίζει σημασιολογικά μονοπάτια που αντιστοιχούν σε οντότητες, ιδιότητες και σχέσεις, και στη συνέχεια συνθέτει δυναμικά ερωτήματα διάσχισης γράφου (graph traversal queries) που είναι άμεσα εκτελέσιμα. Δεύτερον, προτείνεται ένα τυπικό υβριδικό πλαίσιο που ενοποιεί συμβολικές και νευρωνικές μεθόδους σε μία ενιαία διαδικασία μετάφρασης και εκτέλεσης, με ρητό μηχανισμό διασφάλισης σημασιολογικής συνέπειας. Το πλαίσιο καθορίζει πώς η ανάκτηση με επαυξημένη παραγωγή (Retrieval-Augmented Generation, RAG) μπορεί να συνδυαστεί με αυστηρούς συμβολικούς περιορισμούς κατά τη διάσχιση του γράφου, έτσι ώστε η νευρωνική ευελιξία να μην υπονομεύει την τυπική ορθότητα της απάντησης. Παράλληλα, ενσωματώνεται συστηματική λογική υποκατάστασης (substitution logic) για την επέκταση του χώρου εφικτών αποτελεσμάτων, ιδίως σε σενάρια όπου απαιτείται συνδυαστική ικανοποίηση περιορισμών. Επιπλέον, η διατριβή παράγει θεωρητικά όρια πολυπλοκότητας χρόνου και μνήμης για τα επιμέρους στάδια της διαδικασίας και τα τεκμηριώνει εμπειρικά μέσω μετρήσεων καθυστέρησης από άκρο σε άκρο (end-to-end latency). Οι παραπάνω ερευνητικές συνεισφορές επιδεικνύονται μέσω δύο ανεξάρτητων αρχιτεκτονικών συστημάτων σε διαφορετικούς τομείς εφαρμογής. Στην πρώτη εφαρμογή αναπτύσσεται ένα Σύστημα Ακαδημαϊκών Πληροφοριών, το οποίο ακολουθεί ντετερμινιστικό συμβολικό σχεδιασμό που μετασχηματίζει ερωτήσεις διατυπωμένες στην Ελληνική σε Cypher με βάση συντακτική ανάλυση και επικύρωση οντοτήτων/σχέσεων καθοδηγούμενη από το σχήμα. Το σύστημα επιτυγχάνει υψηλές τιμές ακρίβειας (precision) και ανάκλησης (recall) σε ερωτήματα που εκτείνονται από απλή ανάκτηση γεγονότων έως σύνθετες συναθροίσεις πολλαπλών βημάτων (multi-hop aggregations). Στη δεύτερη εφαρμογή αναπτύσσεται ένα Διατροφικό Σύστημα Πρότασης Συνταγών με εξατομίκευση και διατροφικούς περιορισμούς, το οποίο υλοποιεί υβριδικό συνδυασμό συμβολικών και νευρωνικών μεθόδων. Τα μεγάλα γλωσσικά μοντέλα (LLMs) χρησιμοποιούνται αποκλειστικά για κατανόηση της πρόθεσης του χρήστη και για παραγωγή απαντήσεων σε φυσική γλώσσα, ενώ η αναζήτηση, η επιβολή περιορισμών και ο έλεγχος συμμόρφωσης υλοποιούνται μέσω συμβολικών ερωτημάτων πάνω στον γράφο. Η αρχιτεκτονική αξιοποιεί RAG για δημιουργία απάντησης βασισμένη σε περιεχόμενο από τον γράφο, ενώ εισάγει μηχανισμούς ανάκτησης συνταγών με ταυτόχρονη ικανοποίηση πολλαπλών διατροφικών περιορισμών, ενισχυμένους από δυναμική υποκατάσταση συστατικών, οδηγώντας σε ουσιαστική αύξηση του πλήθους των έγκυρων αποτελεσμάτων. Η εμπειρική αξιολόγηση καταδεικνύει την αποτελεσματικότητα του προτεινόμενου πλαισίου σε ετερογενή περιβάλλοντα. Το Σύστημα Ακαδημαϊκών Πληροφοριών παρουσιάζει ισχυρή απόδοση σε πραγματικά ερωτήματα στην Ελληνική. Το Διατροφικό Σύστημα χειρίζεται με επιτυχία σύνθετα σενάρια πολλαπλών περιορισμών, όπου η υποκατάσταση συστατικών οδηγεί σε διπλασιασμό των διαθέσιμων αποτελεσμάτων ενώ συνοδεύεται από υψηλές αξιολογήσεις χρηστών στην Κλίμακα Χρηστικότητας Συστήματος. Συνολικά, η διατριβή τεκμηριώνει ότι προσεγγίσεις που δεν απαιτούν εκπαίδευση (training-free) μπορούν να επιτύχουν αξιόπιστη απόδοση σε γλώσσες μεσαίων πόρων, επικυρώνει την εφαρμοσιμότητα του προτεινόμενου πλαισίου μέσω δύο διακριτών υλοποιήσεων και συνάγει ότι υβριδικές αρχιτεκτονικές, που συνδυάζουν τη συμβολική ακρίβεια με τη νευρωνική ευελιξία, μπορούν να καταστήσουν προσιτή την πρόσβαση σε γράφους γνώσης, διατηρώντας ταυτόχρονα ερμηνευσιμότητα και στοιχειοθετημένη θεμελίωση των παραγόμενων απαντήσεων.

περισσότερα

Περίληψη σε άλλη γλώσσα

Knowledge graphs (KG) enable structured reasoning and highly expressive querying over complex domain information, yet they remain largely inaccessible to non-technical users because querying typically requires formal languages such as Cypher and SPARQL. This barrier is further amplified in medium-resource languages such as Greek, where rich morphology and comparatively limited Natural Language Processing (NLP) tools complicate both intent interpretation and the semantic alignment of user questions with knowledge-graph structures. This thesis addresses these limitations by proposing a unified theoretical and methodological framework for natural-language interfaces to property-graph knowledge bases, validated on Greek questions in two distinct application domains. The central objective of the framework is the reliable translation of natural-language questions into executable Cypher while preserving semantic consistency between user intent and the generated formal query. This thesis offers two core methodological contributions. First, it introduces a schema-agnostic and template-free method for translating natural-language questions into executable Cypher without labeled training data, predefined templates, or manual schema specifications. The method leverages Universal Dependencies (UD) for syntactic analysis and automatically extracts the schema of the target knowledge graph. By combining UD parses with the extracted schema, it identifies semantically plausible paths over entities, properties, and relations, and synthesizes executable graph-traversal queries accordingly. Second, the thesis develops a formal hybrid framework that integrates symbolic and neural components within a unified translation-and-execution pipeline and enforces semantic consistency between natural-language intent and the resulting graph query. The framework specifies how KG-grounded retrieval and retrieval-augmented generation can be combined while imposing hard constraints via symbolic graph querying, and it incorporates principled substitution reasoning to expand the space of feasible results under constraints. It also derives time and memory complexity bounds for the pipeline stages and empirically corroborates them through end-to-end latency measurements. These contributions of this thesis are demonstrated through two system architectures in separate domains. An Academic Information System adopts a deterministic symbolic design that translates Greek questions into Cypher through dependency parsing and schema-guided entity/relation validation, achieving high precision and recall across query types ranging from factoid retrieval to multi-hop aggregations. A Diet-Aware Recipe Recommendation System implements a neuro-symbolic architecture in which large language models are used exclusively for intent understanding and natural-language response generation, while recipe retrieval and dietary constraint enforcement are performed symbolically over a KG. The system supports multi-diet retrieval under multiple simultaneous dietary restrictions and employs dynamic ingredient substitution, yielding substantial increases in valid results. Empirical evaluation demonstrates strong performance on real-world Greek queries in the academic domain and effective handling of complex multi-constraint scenarios in the dietary domain, where ingredient substitution can double the number of valid results and user studies report high System Usability Scale scores. Overall, the thesis shows that approaches not requiring supervised training data can achieve robust performance in medium-resource languages, validates cross-domain applicability through two distinct implementations, and indicates that hybrid architectures combining symbolic precision with neural flexibility can democratize access to knowledge graphs while maintaining interpretability and evidence-based grounding.

περισσότερα

Η διατριβή είναι δεσμευμένη από τον συγγραφέα (μέχρι και: 9/2026)

DOI	10.12681/eadd/61256
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/61256
ND	61256
Εναλλακτικός τίτλος	Natural language question answering over knowledge graphs: dependency-based and hybrid approaches for Greek language applications
Συγγραφέας	Τσάμπος, Ιωάννης (Πατρώνυμο: Κωνσταντίνος)
Ημερομηνία	02/2026
Ίδρυμα	Ελληνικό Μεσογειακό Πανεπιστήμιο. Σχολή Μηχανικών. Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Εξεταστική επιτροπή	Μαρακάκης Εμμανουήλ Βασιλάκης Κωνσταντίνος Παπαδάκης Νικόλαος Βιδάκης Νικόλαος Κωνσταντάρας Αντώνιος Κονδυλάκης Χαρίδημος Μπατσάκης Σωτήριος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Πληροφοριακά συστήματα
Λέξεις-κλειδιά	Τεχνητή νοημοσύνη; Μεγάλα γλωσσικά μοντέλα (LLMs); Επεξεργασία φυσικής γλώσσας; Διεπαφές φυσικής γλώσσας; Συστήματα ερωταποκρίσεων; Γράφοι γνώσης; Βάσεις δεδομένων γράφων ιδιοτήτων; Σημασιολογική ανάλυση; Αυτόματη δημιουργία ερωτημάτων βάσεων δεδομένων; Μετάφραση κειμένου σε Cypher; Σημασιολογική αναζήτηση; Παραγωγή επαυξημένης ανάκτησης (RAG)
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

"Απαντήσεις ερωτήσεων φυσικής γλώσσας σε γράφους γνώσης: προσεγγίσεις βασισμένες σε συντακτικές εξαρτήσεις και υβριδικές μεθόδους για εφαρμογές στην ελληνική γλώσσα"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .