Motion and geometry-aware methods for automatic sign language processing

Αρχική

Πλοήγηση

Επιστημονικό πεδίο

Ημερομηνία

Συγγραφέας

Χώρα

Γλώσσα

Ίδρυμα

Σχετικά με το ΕΑΔΔ

Κατάθεση Διατριβής

Συχνές Ερωτήσεις

Κέντρο Υποστήριξης Χρηστών

Επικοινωνία

Ανοικτά Δεδομένα

Περίληψη

Η Αυτόματη Επεξεργασία Νοηματικής Γλώσσας στοχεύει στην ερμηνεία της νοηματικής επικοινωνίας από οπτικά δεδομένα, διευκολύνοντας την αλληλεπίδραση μεταξύ κωφών και ακουόντων. Παρά τη σημαντική πρόοδο που έχει επιτευχθεί χάρη στη βαθιά μάθηση και στα μεγάλης κλίμακας σύνολα δεδομένων, η αξιόπιστη επεξεργασία νοηματικής γλώσσας παραμένει απαιτητική, εξαιτίας της λεπτομερούς, δομημένης και πολυτροπικής φύσης της νοηματικής άρθρωσης. Ειδικότερα, πολλές σύγχρονες προσεγγίσεις βασίζονται κυρίως στη χρονική μοντελοποίηση ακολουθιών της πόζας του νοηματιστή, καθοδηγούμενες αποκλειστικά από δεδομένα, παραβλέποντας συχνά τη γεωμετρική και κινηματική δομή της ανθρώπινης κίνησης που διέπει την παραγωγή των νοημάτων. Η παρούσα διατριβή διερευνά μεθόδους καθοδηγούμενες από τη γεωμετρία και την κίνηση για την αυτόματη επεξεργασία νοηματικής γλώσσας, με έμφαση σε αναπαραστάσεις βασισμένες στην πόζα του νοηματιστή, η οποία προκύπτει από τον εντοπισμό των σημείων των αρθρώσεων του σώματος στην εικόνα. Οι προτεινόμενες προσεγγίσεις αξιοποιούν τη γεωμετρική πληροφορία που εξάγεται από την κίνηση του χεριού και του καρπού, καθώς και από τη χειρομορφή, για τη σύνοψη και την αναγνώριση από βίντεο νοηματικής γλώσσας. Αρχικά, η διατριβή παρουσιάζει τεχνικές σύνοψης βίντεο νοηματικής γλώσσας καθοδηγούμενες από την κίνηση, χωρίς την ανάγκη εκπαίδευσης μοντέλων. Χρησιμοποιώντας τη χρονικά παραμετροποιημένη καμπυλότητα της τροχιάς του καρπού, προτείνεται μια μέθοδος εξαγωγής σημαντικών στιγμιοτύπων του βίντεο, επιτυγχάνοντας χρονική συμπίεση και ταυτόχρονη διατήρηση του νοήματος. Η προσέγγιση επεκτείνεται στις τρεις διαστάσεις, ενσωματώνοντας τόσο την καμπυλότητα όσο και τη στρέψη, ώστε να αποτυπώνονται αποτελεσματικά οι τρισδιάστατες κινήσεις. Εκτενείς ποσοτικές αξιολογήσεις και αξιολογήσεις από γλωσσολόγους της Ελληνικής Νοηματικής Γλώσσας δείχνουν ότι οι προτεινόμενες μέθοδοι διατηρούν καλύτερα το σημασιολογικό περιεχόμενο σε σχέση με υπάρχουσες προσεγγίσεις, παραμένοντας παράλληλα υπολογιστικά αποδοτικές και ερμηνεύσιμες. Στη συνέχεια, η διατριβή εξετάζει τη μοντελοποίηση της χειρομορφής και της κίνησης για την αναγνώριση νοημάτων. Χρησιμοποιούνται και ορίζονται διαφορετικές γεωμετρικές αποστάσεις χειρομορφών και προτείνεται ένα πλαίσιο αυτοεπιβλεπόμενης μάθησης για την εξαγωγή χαρακτηριστικών που διατηρούν τις αποστάσεις αυτές, μεταφέροντας τη γεωμετρική ομοιότητα σε συμπαγείς αναπαραστάσεις. Οι αναπαραστάσεις αυτές ενσωματώνονται σε μοντέλα αναγνώρισης βασισμένα σε Transformers, λειτουργώντας ως ισχυρή εκ των προτέρων πληροφορία και οδηγώντας σε βελτίωση της ακρίβειας αναγνώρισης σε μεγάλης κλίμακας σύνολα δεδομένων. Συνολικά, η εργασία αυτή δείχνει ότι η ενσωμάτωση γεωμετρικών και κινηματικών χαρακτηριστικών στις διαδικασίες επεξεργασίας νοηματικής γλώσσας βελτιώνει τόσο τη σύνοψη/συμπίεση κίνησης όσο και την απόδοση της αναγνώρισης. Τα ευρήματα αναδεικνύουν την αξία των αναπαραστάσεων βασισμένων στη γεωμετρία ως ουσιαστική γέφυρα μεταξύ της αρθρωτικής δομής της ανθρώπινης κίνησης και των σύγχρονων μοντέλων μάθησης, συμβάλλοντας στην ανάπτυξη πιο αποδοτικών, ανθεκτικών και ερμηνεύσιμων τεχνολογιών αυτόματης επεξεργασίας νοηματικής γλώσσας.

περισσότερα

Περίληψη σε άλλη γλώσσα

Automatic Sign Language Processing aims to interpret signed communication from visual input, enabling accessible interaction between Deaf and hearing communities. Despite substantial progress driven by deep learning and large-scale datasets, robust sign language processing remains challenging due to the fine-grained, highly structured, and multimodal nature of signed articulation. In particular, many contemporary approaches rely predominantly on data-driven temporal modeling of pose sequences, often overlooking the underlying geometric and kinematic structure of human motion that governs sign production. This dissertation investigates geometry and motion aware methods for automatic sign language processing, with a focus on pose-based representations derived from skeletal keypoints. The proposed approaches make use of geometric information extracted from hand and wrist motion and hand skeletal pose for sign language video summarization and recognition. First, the thesis introduces training-free motion-based summarization techniques for continuous sign language videos. Using wrist motion trajectories, a keyframe selection method based on time-parameterized curvature is proposed to extract lexically salient frames while significantly reducing temporal redundancy. This approach is extended to three dimensions, incorporating both curvature and torsion to capture bending and twisting motion. Extensive quantitative and human-based evaluations demonstrate that the proposed summarization methods preserve semantic content more effectively than existing baselines, while remaining lightweight and interpretable. Second, the dissertation addresses geometry-aware modeling of handshape and skeletal motion for sign recognition. Complementary pose-level distance measures are utilized, including point cloud-based handshape distances and an articulated pose distance that respects hierarchical kinematic structure. Building on these formulations, a self-supervised distance-preserving embedding framework is introduced to transfer explicit geometric similarity into compact latent representations. These embeddings are integrated into Transformer-based recognition models, where they act as strong inductive biases and yield consistent improvements in recognition accuracy on large-scale benchmarks. Overall, this work demonstrates that explicitly incorporating geometric and kinematic priors into sign language processing pipelines enhances both motion summarization and recognition performance. The findings highlight the value of geometry-informed representations as a principled bridge between human articulatory structure and modern learning-based models, contributing toward more efficient, robust, and interpretable sign language technologies.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (2 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/61154
ND	61154
Εναλλακτικός τίτλος	Motion and geometry-aware methods for automatic sign language processing
Συγγραφέας	Σαρτίνας, Ευάγγελος (Πατρώνυμο: Γεώργιος)
Ημερομηνία	02/2026
Ίδρυμα	Πανεπιστήμιο Πατρών. Σχολή Πολυτεχνική. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Εξεταστική επιτροπή	Ψαράκης Εμμανουήλ Κοσμόπουλος Δημήτριος Μεταξάς Δημήτριος Αργυρός Αντώνιος Δερματάς Ευάγγελος Μουστακίδης Γεώργιος Μπερμπερίδης Κωνσταντίνος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Τεχνολογία μέσων
Λέξεις-κλειδιά	Αυτόματη επεξεργασία νοηματικής γλώσσας; Αναγνώριση νοηματικής γλώσσας; Σύνοψη νοηματικής γλώσσας; Γεωμετρικά καθοδηγούμενες αναπαραστάσεις; Αυτοεπιβλεπόμενη μάθηση; Γεωμετρία Frenet–Serret
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

"Αυτόματη επεξεργασία νοηματικής γλώσσας με τεχνικές καθοδηγούμενες από την κίνηση και την γεωμετρία"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .