Αποδοτικές μέθοδοι και μοντέλα για οπτική αναγνώριση ομιλίας από ακολουθίες βίντεο

Περίληψη

Η αναγνώριση ομιλίας είναι ένα πρόβλημα υπολογιστικής όρασης που έχει ως σκοπό την αναγνώριση λεκτικών μονάδων (γράμματα, λέξεις ή φράσεις) που παρουσιάζονται σε ψηφιακά μέσα με οπτικο-ακουστικό περιεχόμενο. Οι εφαρμογές της αναγνώρισης ομιλίας είναι πολυδιάστατες και συναντώνται σε πολλούς τομείς της καθημερινότητας προσφέροντας πλήθος από πρακτικά οφέλη. Παραδείγματα αποτελούν εφαρμογές στον κλάδο της ιατρικής για την υποβοήθηση ατόμων με προβλήματα επικοινωνίας, στην ψηφιακή αρχειοθέτηση περιεχομένου για την διατήρηση της πολιτιστικής κληρονομιάς, λύσεις ασφαλείας σε δημοσίους χώρους αλλά και σε προσωπικό επίπεδο, κ.α. Οι μέθοδοι που προτείνονται στην βιβλιογραφία αποτελούνται από πολύπλοκα μοντέλα και αλγορίθμους με μεγάλο υπολογιστικό κόστος, γεγονός που περιορίζει σημαντικά ή καθιστά αδύνατη την εφαρμογή τους σε πραγματικές συνθήκες και σενάρια. Στόχος αυτής της διατριβής είναι η σχεδίαση και ανάπτυξη αποδοτικών μοντέλων με χαμηλές απαιτήσεις σε υλικό και υπολογιστικούς πόρους γι ...
περισσότερα

Περίληψη σε άλλη γλώσσα

Visual Speech Recognition (VSR) is a computer vision problem that aims to decode spoken words of one or more speakers from visual media without the presence of sound. Applications of VSR are found in numerous domains, with profound impacts on various aspects of everyday life. A notable application lies in the field of accessibility in medicine, where a VSR system can assist individuals with speech impairments, significantly enhancing their quality of life. Other applications include, but are not limited to, video captioning, and personal security systems, each with their own value. While recently there has been a steady increase in research interest regarding VSR, the issue of practicality has not been adequately explored. More specifically, the proposed models and methods often fail to consider the computational costs associated with their architectures, which severely limits or outright prevents their applicability in real-world scenarios. In this dissertation, we focus on addressing ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/60859
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/60859
ND
60859
Εναλλακτικός τίτλος
Lightweight methods and models for practical visual speech recognition from video sequences
Συγγραφέας
Πανάγος, Ιάσων-Ιωάννης (Πατρώνυμο: Κωνσταντίνος)
Ημερομηνία
12/2025
Ίδρυμα
Πανεπιστήμιο Ιωαννίνων. Σχολή Πολυτεχνική. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής
Εξεταστική επιτροπή
Νίκου Χριστόφορος
Σφήκας Γεώργιος
Κόντης Λυσίμαχος-Παύλος
Λύκας Αριστείδης
Μπλέκας Κωνσταντίνος
Κακογεωργίου Ιωάννης
Κεσίδης Αναστάσιος
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και ΤεχνολογίαΕπιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Ηλεκτρική και Ηλεκτρονική μηχανική
Λέξεις-κλειδιά
Αναγνώριση ομιλίας; Μηχανική μάθηση; Υπολογιστική όραση; Επεξεργασία εικόνας βίντεο; Ψηφιακή επεξεργασία εικόνας; Βαθιά μάθηση
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Άλλα στοιχεία
εικ., πιν., σχημ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.