Μέθοδοι εύρωστης αναγνώρισης ομιλίας με πολλαπλούς αισθητήρες και εφαρμογές σε ευφυή περιβάλλοντα

Περίληψη

Η αυτόματη αναγνώριση ομιλίας διαδραματίζει σημαντικό ρόλο στην αλληλεπίδραση ανθρώπου-υπολογιστή διότι η ομιλία αποτελεί ένα φυσικό, γρήγορο, και ασφαλές μέσο επικοινωνίας, με ευρύ πεδίο εφαρμογών στα σύγχρονα πολυαισθητηριακά ευφυή περιβάλλοντα (πχ. αυτοματοποιημένοι χώροι, ρομποτικά συστήματα) τα οποία σχεδιάζονται για τη βελτίωση της καθημερινότητας και της εργασίας των χρηστών τους. Τα τελευταία χρόνια, οι τεχνικές βαθιάς εκμάθησης με νευρωνικά δίκτυα έχουν επιφέρει σημαντικές βελτιώσεις, μειώνοντας το ποσοστιαίο λάθος αναγνώρισης λέξεων (word error rate) κάτω από 10% στις περισσότερες εφαρμογές με μικρόφωνα κοντά στον ομιλητή. Συνεπώς, τα φωνητικά συστήματα χρησιμοποιούνται όλο περισσότερο στην καθημερινότητα. Ωστόσο οι προκλήσεις παραμένουν αρκετές, ειδικά σε περιβάλλοντα με μικρόφωνα μακριά από τον ομιλητή, όπου ο θόρυβος και οι αντηχήσεις υποβαθμίζουν αισθητά την απόδοση της αναγνώρισης. Στην παρούσα διατριβή εξετάζουμε και συνδυάζουμε μεθόδους εύρωστης αναγνώρισης ομιλίας με ...
περισσότερα

Περίληψη σε άλλη γλώσσα

Automatic speech recognition is extensively used in human-computer interaction mainly because communication via speech is natural, fast, and safe. Speech applications and voice-enabled, hands-free technologies are increasingly integrated to the modern area of multisensory smart environments (e.g., smart homes, assistive robotics), targeting life wellness and effectiveness at work. The recent advancements of deep learning have brought significant improvements, yielding word error rates below 10% in most cases of recognition with close-talk microphones. However, many challenges remain unsolved, especially in Distant Speech Recognition (DSR) applications where noise and reverberation effects degrade significantly the performance.In this dissertation, we examine a combination of multichannel methods for robust DSR using microphone arrays. More specifically, the proposed methodology includes 1) microphone selection using signal-based criteria of confidence, 2) microphone combination in the ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/44766
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/44766
ND
44766
Εναλλακτικός τίτλος
Robust multichannel automatic speech recognition for smart environments
Συγγραφέας
Ροδομαγουλάκης, Ισίδωρος (Πατρώνυμο: Ευτύχιος)
Ημερομηνία
2018
Ίδρυμα
Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής
Εξεταστική επιτροπή
Μαραγκός Πέτρος
Ποταμιάνος Αλέξανδρος
Ποταμιάνος Γεράσιμος
Τζαφέστας Κώστας
Τσανάκας Παναγιώτης
Φωτεινέα Ευίτα-Σταυρούλα
Στάμος Γιώργος
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και ΤεχνολογίαΕπιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά
Αυτόματη αναγνώριση ομιλίας; Επικοινωνία ανθρώπου - μηχανής; Ευφυή περιβάλλοντα
Χώρα
Ελλάδα
Γλώσσα
Ελληνικά
Άλλα στοιχεία
xiv, 112 σ., εικ., πιν., σχημ., γραφ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)