Περίληψη
Η παρούσα διδακτορική διατριβή διερευνά τον εξειδικευμένο και ιδιαίτερα απαιτητικό τομέα της ανάκτησης πληροφοριών από διπλώματα ευρεσιτεχνίας (πατέντες), με στόχο τη γεφύρωση του χάσματος μεταξύ των παραδοσιακών μεθοδολογιών αναζήτησης και των σύγχρονων δυνατοτήτων της Τεχνητής Νοημοσύνης (AI). Η επαγγελματική αναζήτηση πατεντών χαρακτηρίζεται ως μια διεργασία κρίσιμης σημασίας, προσανατολισμένη στην υψηλή ανάκληση (recall), όπου η αποτυχία εντοπισμού έστω και ενός σχετικού εγγράφου μπορεί να επιφέρει σοβαρές συνέπειες, όπως ακύρωση διπλωμάτων, δικαστικές διαμάχες για παραβίαση δικαιωμάτων και σημαντικές οικονομικές απώλειες. Παρά την πρόοδο στην Επεξεργασία Φυσικής Γλώσσας, τα τυπικά νευρωνικά μοντέλα συχνά υποαποδίδουν στον τομέα αυτό λόγω των μοναδικών χαρακτηριστικών των πατεντών, οι οποίες χρησιμοποιούν εξαιρετικά τεχνική και συχνά σκόπιμα ασαφή νομική ορολογία για τον καθορισμό του πεδίου προστασίας. Για την αντιμετώπιση αυτών των εγγενών προκλήσεων — συγκεκριμένα του εξαιρετικά ...
Η παρούσα διδακτορική διατριβή διερευνά τον εξειδικευμένο και ιδιαίτερα απαιτητικό τομέα της ανάκτησης πληροφοριών από διπλώματα ευρεσιτεχνίας (πατέντες), με στόχο τη γεφύρωση του χάσματος μεταξύ των παραδοσιακών μεθοδολογιών αναζήτησης και των σύγχρονων δυνατοτήτων της Τεχνητής Νοημοσύνης (AI). Η επαγγελματική αναζήτηση πατεντών χαρακτηρίζεται ως μια διεργασία κρίσιμης σημασίας, προσανατολισμένη στην υψηλή ανάκληση (recall), όπου η αποτυχία εντοπισμού έστω και ενός σχετικού εγγράφου μπορεί να επιφέρει σοβαρές συνέπειες, όπως ακύρωση διπλωμάτων, δικαστικές διαμάχες για παραβίαση δικαιωμάτων και σημαντικές οικονομικές απώλειες. Παρά την πρόοδο στην Επεξεργασία Φυσικής Γλώσσας, τα τυπικά νευρωνικά μοντέλα συχνά υποαποδίδουν στον τομέα αυτό λόγω των μοναδικών χαρακτηριστικών των πατεντών, οι οποίες χρησιμοποιούν εξαιρετικά τεχνική και συχνά σκόπιμα ασαφή νομική ορολογία για τον καθορισμό του πεδίου προστασίας. Για την αντιμετώπιση αυτών των εγγενών προκλήσεων — συγκεκριμένα του εξαιρετικά μεγάλου μήκους των εγγράφων, της πολύπλοκης δομής και του προβλήματος της "λεξικής αναντιστοιχίας" — η παρούσα έρευνα αναπτύσσει και επικυρώνει καινοτόμα πλαίσια για δύο κρίσιμα στάδια του αγωγού Ομοσπονδιακής Αναζήτησης: τη συγχώνευση αποτελεσμάτων και την ανακατάταξη εγγράφων. Μια κεντρική πρόκληση που διατρέχει το σύνολο της εργασίας είναι ο αποτελεσματικός χειρισμός δομημένων εγγράφων μεγάλου μήκους (long documents) στην εποχή των μοντέλων Transformer. Οι συνήθεις νευρωνικές αρχιτεκτονικές αδυνατούν να επεξεργαστούν αποτελεσματικά το μήκος των πατεντών λόγω υπολογιστικών περιορισμών. Κοινές λύσεις σε αυτόν τον περιορισμό μήκους περιλαμβάνουν την συνόψιση κειμένου, την τμηματοποίηση του εγγράφου (segmentation), ή την χρήση εξειδικευμένων μοντέλων με εκτεταμένο πλαίσιο αναφοράς (long-context). Η παρούσα διατριβή υιοθετεί μια προσέγγιση βασισμένη στην κατάτμηση (segmentation), η οποία θεμελιώνεται θεωρητικά στην «υπόθεση εμβέλειας» (scope hypothesis). Η υπόθεση αυτή υποστηρίζει ότι η συνάφεια σε μια πατέντα είναι συχνά εντοπισμένη σε συγκεκριμένες δομικές ενότητες — όπως η Περίληψη, η Περιγραφή ή οι Αξιώσεις — και δεν κατανέμεται ομοιόμορφα. Αξιοποιώντας αυτά τα διακριτά στοιχεία, η προτεινόμενη μεθοδολογία διατηρεί τις λεπτομερείς τεχνικές πληροφορίες που είναι απαραίτητες για την κρίση καινοτομίας, οι οποίες συνήθως χάνονται κατά την ολιστική επεξεργασία του εγγράφου. Στο πρώτο μέρος της διατριβής, αντιμετωπίζουμε την πρόκληση της συγχώνευσης αποτελεσμάτων από κατανεμημένες, ετερογενείς πηγές, όπου οι βαθμολογίες συνάφειας είναι συχνά μη συγκρίσιμες ή μη διαθέσιμες. Εισάγουμε το πλαίσιο Machine Learning Models for Results Merging (MLRM), το οποίο αξιοποιεί ένα Κεντρικό Ευρετήριο Δειγμάτων (CSI) ως δυναμικό πεδίο εκπαίδευσης για την κανονικοποίηση των τοπικών βαθμολογιών σε έναν ενιαίο παγκόσμιο χώρο συνάφειας. Μέσω εκτεταμένων πειραμάτων, αποδεικνύουμε ότι οι μέθοδοι ομαδικής μάθησης (ensemble learning), και συγκεκριμένα τα Random Forests, υπερέχουν σημαντικά έναντι καθιερωμένων ευριστικών μεθόδων όπως οι CORI και SSL. Αυτό θέτει ένα νέο σημείο αναφοράς για τη συγχώνευση αποτελεσμάτων, αποδεικνύοντας ιδιαίτερη ανθεκτικότητα σε μη συνεργατικά περιβάλλοντα όπου οι μηχανές αναζήτησης λειτουργούν ως «μαύρα κουτιά». Η δεύτερη κύρια συνεισφορά είναι το πλαίσιο Query-Aware Patent Re-ranking (QAPR), σχεδιασμένο να βελτιστοποιεί την τελική κατάταξη αντιμετωπίζοντας τις πατέντες ως ακολουθίες σημασιολογικά ανεξάρτητων δομικών στοιχείων. Το QAPR χρησιμοποιεί μια υβριδική νευρωνική αρχιτεκτονική για τη σύνθεση τριών διαφορετικών κατηγοριών σημάτων συνάφειας: λεξικά σήματα (lexical) που καταγράφουν ακριβείς αντιστοιχίες όρων μέσω του BM25, σημασιολογικά σήματα (semantic) που χρησιμοποιούν αναπαραστάσεις transformer (SBERT) για την καταγραφή βαθύτερου εννοιολογικού πλαισίου, και δομικά σήματα (structural) που μοντελοποιούν τις ρητές σχέσεις και τα βάρη σπουδαιότητας μεταξύ των διαφορετικών ενοτήτων του εγγράφου. Μια βασική καινοτομία είναι η εισαγωγή ενός μηχανισμού δυναμικής στάθμισης (query-adaptive weighting), ο οποίος προσαρμόζει την επίδραση των λεξικών έναντι των σημασιολογικών σημάτων με βάση τη διακριτική ικανότητα (IDF) των όρων του ερωτήματος. Η πειραματική αξιολόγηση στα σύνολα δεδομένων CLEF-IP και WPI-PR επιβεβαιώνει ότι το QAPR επιφέρει στατιστικά σημαντικές βελτιώσεις, θέτοντας ένα νέο πρότυπο για τη δομημένη ανάκτηση εγγράφων μεγάλου μήκους στον τομέα των πατεντών.
περισσότερα
Περίληψη σε άλλη γλώσσα
This Ph.D. dissertation investigates the specialized and highly demanding domain of patent information retrieval, aiming to bridge the gap between traditional search methodologies and modern Artificial Intelligence (AI) capabilities. Professional patent search is characterized as a mission-critical, recall-oriented task where the failure to retrieve a single relevant document can result in severe consequences, including patent invalidation, infringement litigation, and substantial economic loss. Despite advancements in Natural Language Processing, standard neural models often falter in this domain due to the unique characteristics of patent documents, which employ highly technical and often intentionally vague legal terminology to define the scope of protection. To address these inherent complexities—specifically extreme document length, intricate structure, and the vocabulary mismatch problem—this research develops and validates novel frameworks for two critical stages of the Federate ...
This Ph.D. dissertation investigates the specialized and highly demanding domain of patent information retrieval, aiming to bridge the gap between traditional search methodologies and modern Artificial Intelligence (AI) capabilities. Professional patent search is characterized as a mission-critical, recall-oriented task where the failure to retrieve a single relevant document can result in severe consequences, including patent invalidation, infringement litigation, and substantial economic loss. Despite advancements in Natural Language Processing, standard neural models often falter in this domain due to the unique characteristics of patent documents, which employ highly technical and often intentionally vague legal terminology to define the scope of protection. To address these inherent complexities—specifically extreme document length, intricate structure, and the vocabulary mismatch problem—this research develops and validates novel frameworks for two critical stages of the Federated Patent Search pipeline: results merging and document re-ranking. A central challenge addressed in this work is the effective retrieval of long, structured documents in the Transformer era. Standard neural architectures struggle with patent length due to quadratic computational complexity. Common solutions to this length limitation include summarization, document segmentation, or specialized long-context models. This thesis adopts a segmentation-based approach, motivated and theoretically grounded in the "scope hypothesis". This hypothesis posits that patent relevance is often localized within specific structural sections—such as the Abstract, Description, or Claims—rather than being uniformly distributed. By leveraging these distinct components, the proposed methodology preserves fine-grained technical details essential for determining novelty, which are typically lost in holistic document processing. In the first part of the thesis, we address the challenge of merging results from distributed, heterogeneous resources where relevance scores are often incomparable or withheld. We introduce the Machine Learning Models for Results Merging (MLRM) framework, which repurposes a Centralized Sample Index (CSI) as a dynamic training ground to normalize local scores into a global relevance space. Through extensive experimentation, we demonstrate that ensemble learning methods, specifically Random Forests, significantly outperform established heuristic baselines such as CORI and SSL. This establishes a new benchmark for results merging, proving particularly robust in uncooperative environments where search engines operate as "black boxes". The second major contribution is the Query-Aware Patent Re-ranking (QAPR) framework, designed to optimize the final ranking by treating patents as sequences of semantically independent structural components. QAPR utilizes a hybrid neural architecture to fuse three distinct categories of relevance signals: lexical signals capturing exact term matches via BM25, semantic signals utilizing Sentence-BERT (SBERT) embeddings to capture deep conceptual context, and structural signals modeling the explicit relationships and importance weights between different document sections. A key innovation is the introduction of a query-adaptive weighting mechanism that dynamically adjusts the influence of lexical versus semantic signals based on the discriminative power (IDF) of query terms. Experimental evaluation on the CLEF-IP and WPI-PR datasets confirms that QAPR yields statistically significant improvements, establishing a new standard for structure-aware, long-document retrieval in the patent domain.
περισσότερα