Περίληψη
Η Αυτόματη Επεξεργασία Νοηματικής Γλώσσας στοχεύει στην ερμηνεία της νοηματικής επικοινωνίας από οπτικά δεδομένα, διευκολύνοντας την αλληλεπίδραση μεταξύ κωφών και ακουόντων. Παρά τη σημαντική πρόοδο που έχει επιτευχθεί χάρη στη βαθιά μάθηση και στα μεγάλης κλίμακας σύνολα δεδομένων, η αξιόπιστη επεξεργασία νοηματικής γλώσσας παραμένει απαιτητική, εξαιτίας της λεπτομερούς, δομημένης και πολυτροπικής φύσης της νοηματικής άρθρωσης. Ειδικότερα, πολλές σύγχρονες προσεγγίσεις βασίζονται κυρίως στη χρονική μοντελοποίηση ακολουθιών της πόζας του νοηματιστή, καθοδηγούμενες αποκλειστικά από δεδομένα, παραβλέποντας συχνά τη γεωμετρική και κινηματική δομή της ανθρώπινης κίνησης που διέπει την παραγωγή των νοημάτων. Η παρούσα διατριβή διερευνά μεθόδους καθοδηγούμενες από τη γεωμετρία και την κίνηση για την αυτόματη επεξεργασία νοηματικής γλώσσας, με έμφαση σε αναπαραστάσεις βασισμένες στην πόζα του νοηματιστή, η οποία προκύπτει από τον εντοπισμό των σημείων των αρθρώσεων του σώματος στην εικόνα. Ο ...
Η Αυτόματη Επεξεργασία Νοηματικής Γλώσσας στοχεύει στην ερμηνεία της νοηματικής επικοινωνίας από οπτικά δεδομένα, διευκολύνοντας την αλληλεπίδραση μεταξύ κωφών και ακουόντων. Παρά τη σημαντική πρόοδο που έχει επιτευχθεί χάρη στη βαθιά μάθηση και στα μεγάλης κλίμακας σύνολα δεδομένων, η αξιόπιστη επεξεργασία νοηματικής γλώσσας παραμένει απαιτητική, εξαιτίας της λεπτομερούς, δομημένης και πολυτροπικής φύσης της νοηματικής άρθρωσης. Ειδικότερα, πολλές σύγχρονες προσεγγίσεις βασίζονται κυρίως στη χρονική μοντελοποίηση ακολουθιών της πόζας του νοηματιστή, καθοδηγούμενες αποκλειστικά από δεδομένα, παραβλέποντας συχνά τη γεωμετρική και κινηματική δομή της ανθρώπινης κίνησης που διέπει την παραγωγή των νοημάτων. Η παρούσα διατριβή διερευνά μεθόδους καθοδηγούμενες από τη γεωμετρία και την κίνηση για την αυτόματη επεξεργασία νοηματικής γλώσσας, με έμφαση σε αναπαραστάσεις βασισμένες στην πόζα του νοηματιστή, η οποία προκύπτει από τον εντοπισμό των σημείων των αρθρώσεων του σώματος στην εικόνα. Οι προτεινόμενες προσεγγίσεις αξιοποιούν τη γεωμετρική πληροφορία που εξάγεται από την κίνηση του χεριού και του καρπού, καθώς και από τη χειρομορφή, για τη σύνοψη και την αναγνώριση από βίντεο νοηματικής γλώσσας. Αρχικά, η διατριβή παρουσιάζει τεχνικές σύνοψης βίντεο νοηματικής γλώσσας καθοδηγούμενες από την κίνηση, χωρίς την ανάγκη εκπαίδευσης μοντέλων. Χρησιμοποιώντας τη χρονικά παραμετροποιημένη καμπυλότητα της τροχιάς του καρπού, προτείνεται μια μέθοδος εξαγωγής σημαντικών στιγμιοτύπων του βίντεο, επιτυγχάνοντας χρονική συμπίεση και ταυτόχρονη διατήρηση του νοήματος. Η προσέγγιση επεκτείνεται στις τρεις διαστάσεις, ενσωματώνοντας τόσο την καμπυλότητα όσο και τη στρέψη, ώστε να αποτυπώνονται αποτελεσματικά οι τρισδιάστατες κινήσεις. Εκτενείς ποσοτικές αξιολογήσεις και αξιολογήσεις από γλωσσολόγους της Ελληνικής Νοηματικής Γλώσσας δείχνουν ότι οι προτεινόμενες μέθοδοι διατηρούν καλύτερα το σημασιολογικό περιεχόμενο σε σχέση με υπάρχουσες προσεγγίσεις, παραμένοντας παράλληλα υπολογιστικά αποδοτικές και ερμηνεύσιμες. Στη συνέχεια, η διατριβή εξετάζει τη μοντελοποίηση της χειρομορφής και της κίνησης για την αναγνώριση νοημάτων. Χρησιμοποιούνται και ορίζονται διαφορετικές γεωμετρικές αποστάσεις χειρομορφών και προτείνεται ένα πλαίσιο αυτοεπιβλεπόμενης μάθησης για την εξαγωγή χαρακτηριστικών που διατηρούν τις αποστάσεις αυτές, μεταφέροντας τη γεωμετρική ομοιότητα σε συμπαγείς αναπαραστάσεις. Οι αναπαραστάσεις αυτές ενσωματώνονται σε μοντέλα αναγνώρισης βασισμένα σε Transformers, λειτουργώντας ως ισχυρή εκ των προτέρων πληροφορία και οδηγώντας σε βελτίωση της ακρίβειας αναγνώρισης σε μεγάλης κλίμακας σύνολα δεδομένων. Συνολικά, η εργασία αυτή δείχνει ότι η ενσωμάτωση γεωμετρικών και κινηματικών χαρακτηριστικών στις διαδικασίες επεξεργασίας νοηματικής γλώσσας βελτιώνει τόσο τη σύνοψη/συμπίεση κίνησης όσο και την απόδοση της αναγνώρισης. Τα ευρήματα αναδεικνύουν την αξία των αναπαραστάσεων βασισμένων στη γεωμετρία ως ουσιαστική γέφυρα μεταξύ της αρθρωτικής δομής της ανθρώπινης κίνησης και των σύγχρονων μοντέλων μάθησης, συμβάλλοντας στην ανάπτυξη πιο αποδοτικών, ανθεκτικών και ερμηνεύσιμων τεχνολογιών αυτόματης επεξεργασίας νοηματικής γλώσσας.
περισσότερα
Περίληψη σε άλλη γλώσσα
Automatic Sign Language Processing aims to interpret signed communication from visual input, enabling accessible interaction between Deaf and hearing communities. Despite substantial progress driven by deep learning and large-scale datasets, robust sign language processing remains challenging due to the fine-grained, highly structured, and multimodal nature of signed articulation. In particular, many contemporary approaches rely predominantly on data-driven temporal modeling of pose sequences, often overlooking the underlying geometric and kinematic structure of human motion that governs sign production. This dissertation investigates geometry and motion aware methods for automatic sign language processing, with a focus on pose-based representations derived from skeletal keypoints. The proposed approaches make use of geometric information extracted from hand and wrist motion and hand skeletal pose for sign language video summarization and recognition. First, the thesis introduces train ...
Automatic Sign Language Processing aims to interpret signed communication from visual input, enabling accessible interaction between Deaf and hearing communities. Despite substantial progress driven by deep learning and large-scale datasets, robust sign language processing remains challenging due to the fine-grained, highly structured, and multimodal nature of signed articulation. In particular, many contemporary approaches rely predominantly on data-driven temporal modeling of pose sequences, often overlooking the underlying geometric and kinematic structure of human motion that governs sign production. This dissertation investigates geometry and motion aware methods for automatic sign language processing, with a focus on pose-based representations derived from skeletal keypoints. The proposed approaches make use of geometric information extracted from hand and wrist motion and hand skeletal pose for sign language video summarization and recognition. First, the thesis introduces training-free motion-based summarization techniques for continuous sign language videos. Using wrist motion trajectories, a keyframe selection method based on time-parameterized curvature is proposed to extract lexically salient frames while significantly reducing temporal redundancy. This approach is extended to three dimensions, incorporating both curvature and torsion to capture bending and twisting motion. Extensive quantitative and human-based evaluations demonstrate that the proposed summarization methods preserve semantic content more effectively than existing baselines, while remaining lightweight and interpretable. Second, the dissertation addresses geometry-aware modeling of handshape and skeletal motion for sign recognition. Complementary pose-level distance measures are utilized, including point cloud-based handshape distances and an articulated pose distance that respects hierarchical kinematic structure. Building on these formulations, a self-supervised distance-preserving embedding framework is introduced to transfer explicit geometric similarity into compact latent representations. These embeddings are integrated into Transformer-based recognition models, where they act as strong inductive biases and yield consistent improvements in recognition accuracy on large-scale benchmarks. Overall, this work demonstrates that explicitly incorporating geometric and kinematic priors into sign language processing pipelines enhances both motion summarization and recognition performance. The findings highlight the value of geometry-informed representations as a principled bridge between human articulatory structure and modern learning-based models, contributing toward more efficient, robust, and interpretable sign language technologies.
περισσότερα