Περίληψη
Η αναγνώριση ομιλίας είναι ένα πρόβλημα υπολογιστικής όρασης που έχει ως σκοπό την αναγνώριση λεκτικών μονάδων (γράμματα, λέξεις ή φράσεις) που παρουσιάζονται σε ψηφιακά μέσα με οπτικο-ακουστικό περιεχόμενο. Οι εφαρμογές της αναγνώρισης ομιλίας είναι πολυδιάστατες και συναντώνται σε πολλούς τομείς της καθημερινότητας προσφέροντας πλήθος από πρακτικά οφέλη. Παραδείγματα αποτελούν εφαρμογές στον κλάδο της ιατρικής για την υποβοήθηση ατόμων με προβλήματα επικοινωνίας, στην ψηφιακή αρχειοθέτηση περιεχομένου για την διατήρηση της πολιτιστικής κληρονομιάς, λύσεις ασφαλείας σε δημοσίους χώρους αλλά και σε προσωπικό επίπεδο, κ.α. Οι μέθοδοι που προτείνονται στην βιβλιογραφία αποτελούνται από πολύπλοκα μοντέλα και αλγορίθμους με μεγάλο υπολογιστικό κόστος, γεγονός που περιορίζει σημαντικά ή καθιστά αδύνατη την εφαρμογή τους σε πραγματικές συνθήκες και σενάρια. Στόχος αυτής της διατριβής είναι η σχεδίαση και ανάπτυξη αποδοτικών μοντέλων με χαμηλές απαιτήσεις σε υλικό και υπολογιστικούς πόρους γι ...
Η αναγνώριση ομιλίας είναι ένα πρόβλημα υπολογιστικής όρασης που έχει ως σκοπό την αναγνώριση λεκτικών μονάδων (γράμματα, λέξεις ή φράσεις) που παρουσιάζονται σε ψηφιακά μέσα με οπτικο-ακουστικό περιεχόμενο. Οι εφαρμογές της αναγνώρισης ομιλίας είναι πολυδιάστατες και συναντώνται σε πολλούς τομείς της καθημερινότητας προσφέροντας πλήθος από πρακτικά οφέλη. Παραδείγματα αποτελούν εφαρμογές στον κλάδο της ιατρικής για την υποβοήθηση ατόμων με προβλήματα επικοινωνίας, στην ψηφιακή αρχειοθέτηση περιεχομένου για την διατήρηση της πολιτιστικής κληρονομιάς, λύσεις ασφαλείας σε δημοσίους χώρους αλλά και σε προσωπικό επίπεδο, κ.α. Οι μέθοδοι που προτείνονται στην βιβλιογραφία αποτελούνται από πολύπλοκα μοντέλα και αλγορίθμους με μεγάλο υπολογιστικό κόστος, γεγονός που περιορίζει σημαντικά ή καθιστά αδύνατη την εφαρμογή τους σε πραγματικές συνθήκες και σενάρια. Στόχος αυτής της διατριβής είναι η σχεδίαση και ανάπτυξη αποδοτικών μοντέλων με χαμηλές απαιτήσεις σε υλικό και υπολογιστικούς πόρους για την αναγνώριση ομιλίας από ακολουθίες βίντεο χωρίς ήχο προσφέροντας μεγαλύτερη ευελιξία και δυνατότητες εφαρμογής. Για τον σκοπό αυτό, αρχικά εξετάζονται μέθοδοι μείωσης της πολυπλοκότητας των υφιστάμενων μοντέλων, ακολουθώντας δύο προσεγγίσεις. Χρησιμοποιούνται δομές που μειώνουν το σύνολο των παραμέτρων των μοντέλων, μειώνοντας τις απαιτήσεις σε πόρους συστήματος, και αξιοποιούνται υπολογιστικές μονάδες που μειώνουν το μέγεθος και την πολυπλοκότητα των δικτύων. Παράλληλα προτείνεται μια μέθοδος κατασκευής μοντέλων με πολύ μικρό κόστος, που είναι ιδανικά για εφαρμογές σε περιβάλλοντα και συσκευές με περιορισμούς στο υλικό.Στη συνέχεια, σχεδιάζονται και αναπτύσσονται ενιαίες αρχιτεκτονικές με υψηλή απόδοση και μικρό υπολογιστικό κόστος που εκμεταλλεύονται την πρόοδο της έρευνας στον τομέα της υπολογιστικής όρασης. Τα προτεινόμενα μοντέλα πετυχαίνουν ποιότητα αναγνώρισης παραπλήσια με μεθόδους της βιβλιογραφίας ενώ ταυτόχρονα είναι πολλές φορές πιο αποδοτικά σε παραμέτρους και πλήθος υπολογισμών. Επιπρόσθετα, ξεπερνούν σημαντικά τις επιδόσεις μοντέλων με παρόμοιο μέγεθος και πολυπλοκότητα που έχουν δημοσιευθεί. Τέλος, αξιοποιούνται μέθοδοι βελτίωσης της ποιότητας αναγνώρισης χωρίς να αυξάνεται το υπολογιστικό κόστος των αρχιτεκτονικών. Στα αναπτυχθέντα ενιαία μοντέλα προστίθενται μηχανισμοί προσοχής με σκοπό την αποδοτικότερη εξαγωγή χαρακτηριστικών και την βελτίωση της ακρίβειας των εκτιμήσεων. Επιπλέον, κατά τη διάρκεια της εκπαίδευσης των μοντέλων, εισάγονται τεχνικές κανονικοποίησης ώστε να βελτιωθεί η ικανότητα μάθησής τους που και αυτή θα οδηγήσει σε υψηλότερα ποσοστά ακρίβειας.
περισσότερα
Περίληψη σε άλλη γλώσσα
Visual Speech Recognition (VSR) is a computer vision problem that aims to decode spoken words of one or more speakers from visual media without the presence of sound. Applications of VSR are found in numerous domains, with profound impacts on various aspects of everyday life. A notable application lies in the field of accessibility in medicine, where a VSR system can assist individuals with speech impairments, significantly enhancing their quality of life. Other applications include, but are not limited to, video captioning, and personal security systems, each with their own value. While recently there has been a steady increase in research interest regarding VSR, the issue of practicality has not been adequately explored. More specifically, the proposed models and methods often fail to consider the computational costs associated with their architectures, which severely limits or outright prevents their applicability in real-world scenarios. In this dissertation, we focus on addressing ...
Visual Speech Recognition (VSR) is a computer vision problem that aims to decode spoken words of one or more speakers from visual media without the presence of sound. Applications of VSR are found in numerous domains, with profound impacts on various aspects of everyday life. A notable application lies in the field of accessibility in medicine, where a VSR system can assist individuals with speech impairments, significantly enhancing their quality of life. Other applications include, but are not limited to, video captioning, and personal security systems, each with their own value. While recently there has been a steady increase in research interest regarding VSR, the issue of practicality has not been adequately explored. More specifically, the proposed models and methods often fail to consider the computational costs associated with their architectures, which severely limits or outright prevents their applicability in real-world scenarios. In this dissertation, we focus on addressing this oversight by developing lightweight and efficient end-to-end models for practical Visual Speech Recognition of isolated words. To realize this objective, we explore a multitude of approaches to reduce network size and complexity using a wide variety of methods. Owing to these reduced hardware requirements, such models can be applied to a broader range of applications and cover a sizable amount of practical real-life scenarios, offering a series of benefits. The fundamental design of a VSR system follows a two-step structure that employs expensive components such as deep convolutional neural networks with large hardware overheads that are prohibitively expensive to deploy. Our goal is reducing these resource requirements while maintaining acceptable recognition rates.To that end, we first employ techniques that exploit efficient formulations and low-cost operations to shrink model sizes without severely compromise performance. We replace the standard, resource-intensive components in existing networks with more efficient ones, achieving significant reductions in model parameter counts as well as in computational complexity. Moreover, we design a lightweight temporal block blueprint that is flexible in its design and can be adapted to the resources at hand and use it to develop highly-efficient networks with minimal hardware demands. Next, we shift our attention to a more holistic approach, by designing a lightweight VSR model using efficient components. A systematic study is conducted evaluating multiple networks and structures for visual feature extraction as well as sequence modeling. We select the best-performing components and combine them in a unified end-to-end architecture that achieves very high recognition accuracy while being compact, outperforming all other lightweight approaches in the literature. Finally, using this model as a baseline, we explore techniques to improve its performance without raising its complexity, attempting to bridge the gap with larger models. To that end, we incorporate channel attention in its temporal blocks to enhance feature representation, while we refine its training process by introducing regularization that allows the networks to learn more descriptive features from the data. Finally, we combine these additions to achieve significant recognition uplifts without affecting the network overhead.
περισσότερα