Περίληψη
Η Διατριβή επικεντρώνεται στο πρόβλημα της αυτόματης αναγνώρισης νοηματικής γλώσσας από δεδομένα βίντεο, με πεδίο εφαρμογής την εκμάθηση Ελληνικής Νοηματικής Γλώσσας (ΕΝΓ) μέσω μίας κατάλληλα σχεδιασμένης πλατφόρμας με ενσωματωμένη λειτουργικότητα αυτόματης αναγνώρισης ΕΝΓ. Η αναγνώριση αναγνώρισης νοηματικής αποτελεί ένα πολύπλοκο και δύσκολο πρόβλημα, λόγω της πληθώρας των αρθρωτών νοηματικής, της πολυπλοκότητας του σχηματισμού αυτής, της διαφοροποίησης της διαδικασίας άρθρωσης μεταξύ νοηματιστών, της δυσκολίας ανθεκτικής οπτικής ανίχνευσης και παρακολούθησης σε ποικίλα μη ιδανικά περιβάλλοντα και δεδομένα από κάμερες χαμηλής ποιότητας, όπως και της έλλειψης βάσεων δεδομένων νοηματικής μεγάλου όγκου. Παράλληλα, η διαδικασία της εκμάθησης νοηματικής ως «2ης γλώσσας» απαιτεί πολύ σημαντική προσπάθεια και αλληλεπίδραση μαθητών-εκπαιδευτών τόσο κατά τη διάρκεια της εκμάθησης όσο και για την αντικειμενική αξιολόγηση των μαθητών από τους εκπαιδευτές τους, που στερείται υποστηρικτικών εργαλ ...
Η Διατριβή επικεντρώνεται στο πρόβλημα της αυτόματης αναγνώρισης νοηματικής γλώσσας από δεδομένα βίντεο, με πεδίο εφαρμογής την εκμάθηση Ελληνικής Νοηματικής Γλώσσας (ΕΝΓ) μέσω μίας κατάλληλα σχεδιασμένης πλατφόρμας με ενσωματωμένη λειτουργικότητα αυτόματης αναγνώρισης ΕΝΓ. Η αναγνώριση αναγνώρισης νοηματικής αποτελεί ένα πολύπλοκο και δύσκολο πρόβλημα, λόγω της πληθώρας των αρθρωτών νοηματικής, της πολυπλοκότητας του σχηματισμού αυτής, της διαφοροποίησης της διαδικασίας άρθρωσης μεταξύ νοηματιστών, της δυσκολίας ανθεκτικής οπτικής ανίχνευσης και παρακολούθησης σε ποικίλα μη ιδανικά περιβάλλοντα και δεδομένα από κάμερες χαμηλής ποιότητας, όπως και της έλλειψης βάσεων δεδομένων νοηματικής μεγάλου όγκου. Παράλληλα, η διαδικασία της εκμάθησης νοηματικής ως «2ης γλώσσας» απαιτεί πολύ σημαντική προσπάθεια και αλληλεπίδραση μαθητών-εκπαιδευτών τόσο κατά τη διάρκεια της εκμάθησης όσο και για την αντικειμενική αξιολόγηση των μαθητών από τους εκπαιδευτές τους, που στερείται υποστηρικτικών εργαλείων. Η κύρια καινοτομία και συνεισφορά της Διατριβής έγκειται στο συνδυασμό των δύο αυτών προβλημάτων, δηλαδή τόσο στην ανάπτυξη καινοτόμων και αποτελεσματικών αλγορίθμων για την αναγνώριση νοηματικής όσο και στην επιτυχή ενσωμάτωση αυτών σε πλατφόρμα εκμάθησης ΕΝΓ, επιδεικνύοντας την επιτυχία του εγχειρήματος τόσο μέσω αξιολόγησης της αναγνώρισης σε κλασσικές βάσεις δεδομένων νοηματικής, όσο και της αξιολόγησης της πλατφόρμας εκμάθησης αντικειμενικά και υποκειμενικά από μεγάλο αριθμό χρηστών αυτής. Συγκεκριμένα, στη Διατριβή αυτή: • Συλλέχθηκε η μεγαλύτερη μέχρι σήμερα βάση δεδομένων ΕΝΓ (τουλάχιστον 3 φορές μεγαλύτερη σε διάρκεια και αριθμό νοηματιστών από την μέχρι πρότινος μεγαλύτερη βάση), η οποία επέτρεψε την εκπαίδευση και αποτίμηση μοντέλων ΕΝΓ για τη Διατριβή και την ενσωμάτωσή τους στην εκπαιδευτική πλατφόρμα, ενώ έγινε διαθέσιμη στην επιστημονική κοινότητα για περαιτέρω πρόοδο στο πεδίο. • Ερευνήθηκε πληθώρα αλγορίθμων για οπτική ανίχνευση και παρακολούθηση των αρθρωτών της εκφοράς νοηματισμού και στη συνέχεια για την εξαγωγή οπτικών χαρακτηριστικών από αυτούς. Περαιτέρω, διαπιστώθηκε ποιες είναι οι πιο κατάλληλες για το πρόβλημα της αναγνώρισης νοηματικής, μέσω πειραμάτων για μεμονωμένο νοηματισμό. Πολλοί από τους αλγορίθμους αυτούς δεν είχαν χρησιμοποιηθεί στο παρελθόν για το συγκεκριμένο πρόβλημα. • Αναπτύχθηκαν καινοτόμοι αλγόριθμοι για την αναγνώριση νοηματικής γλώσσας, με κύρια έμφαση στις αρχιτεκτονικές ακολουθιακής μάθησης. Οι αλγόριθμοι αυτοί χρησιμοποιήθηκαν για αναγνώριση μεμονωμένου νοηματισμού, συνεχούς νοηματισμού, συνεχούς δακτυλοσυλλαβισμού, και τέλος «συνεπαγόμενης ομιλίας» (“cued speech”). Η αξιολόγηση των τεχνικών αυτών έγινε σε πολλαπλές βάσεις δεδομένων, συμπεριλαμβανομένης της ΕΝΓ. Στις πολλές περιπτώσεις οι αλγόριθμοι προήγαγαν τεχνολογία αιχμής. • Τέλος, αναπτύχθηκαν υπολογιστικά αποτελεσματικά μοντέλα για αναγνώριση ΕΝΓ (συγκεκριμένα για μεμονωμένο νοηματισμό, συνεχή νοηματισμό, και συνεχή δακτυλοσυλλαβισμό), τα οποία ενσωματώθηκαν στην εκπαιδευτική πλατφόρμα εκμάθησης ΕΝΓ, με περαιτέρω υποβοήθηση από κατάλληλα γλωσσικά μοντέλα ΕΝΓ. Το σύστημα αξιολογήθηκε από μεγάλο αριθμό χρηστών (φοιτητών του Πανεπιστημίου Θεσσαλίας και εμπειρογνωμόνων ΕΝΓ), επιτυγχάνοντας εξαιρετικά υποκειμενικά και αντικειμενικά αποτελέσματα, με τα τελευταία να βρίσκονται σε απόλυτη συμφωνία με τα πειραματικά αποτελέσματα των αναπτυγμένων αλγορίθμων αναγνώρισης.
περισσότερα
Περίληψη σε άλλη γλώσσα
This Ph.D. Thesis focuses on the problem of automatic Sign Language Recognition (SLR)from video data, with a use-case of learning Greek Sign Language (GSL) through a properly designed platform with integrated functionality of automatic GSL recognition. The SLR problem is complex and challenging, due to the multitude of articulators, the complexity of its formation, the variation of the articulation process among signers, the difficulty of robust visual detection and tracking in a variety of non-ideal environments with often low-quality camera sensors, as well as the lack of large-volume SLR databases. At the same time, the process of learning sign language as a “2nd language” requires a very significant effort and student-teacher interaction both during learning as well as objective assessment of students by their teachers, both lacking appropriate supporting tools. The main innovation and contribution of the Thesis lies in the combination of these two problems, i.e., both in the devel ...
This Ph.D. Thesis focuses on the problem of automatic Sign Language Recognition (SLR)from video data, with a use-case of learning Greek Sign Language (GSL) through a properly designed platform with integrated functionality of automatic GSL recognition. The SLR problem is complex and challenging, due to the multitude of articulators, the complexity of its formation, the variation of the articulation process among signers, the difficulty of robust visual detection and tracking in a variety of non-ideal environments with often low-quality camera sensors, as well as the lack of large-volume SLR databases. At the same time, the process of learning sign language as a “2nd language” requires a very significant effort and student-teacher interaction both during learning as well as objective assessment of students by their teachers, both lacking appropriate supporting tools. The main innovation and contribution of the Thesis lies in the combination of these two problems, i.e., both in the development of innovative and effective algorithms for SLR and their successful integration into a GSL learning platform, demonstrating success both through the evaluation of recognition on various SLR databases, as well as the evaluation of the learning platform objectively and subjectively by a large number of learner users. Specifically, in this Thesis: • The largest GSL database to date has been collected (at least 3 times longer in duration and number of interpreters than the largest database previously), allowing the training and evaluation of GSL models and their integration into the educational platform, while also made available to the scientific community to further advance the field. • Numerous algorithms have been investigated for visual detection and tracking of signing articulators and then for extracting visual features from them. Further, it was determined which ones are most suitable for SLR, through experiments on isolated sign recognition. Many of these algorithms have not been used before for this particular problem. • Innovative algorithms were developed for SLR, with a primary emphasis on sequential learning architectures. These were used to recognize isolated signs, continuous signing, continuous fingerspelling, and finally “cued speech”. These techniques were evaluated on multiple databases, including the aforementioned GSL one. In many cases the algorithms advanced the state-of-the-art. • Finally, computationally efficient models for GSL recognition (specifically for isolated signing, continuous signing, and continuous fingerspelling) were developed, which were integrated into the GSL educational platform, further aided by appropriate GSL language models. The system was evaluated by a large number of users (GSL students at University of Thessaly and GSL experts), achieving excellent subjective and objective results, the latter being in perfect agreement with the off-line SLR results.
περισσότερα