Μέθοδοι  εύρωστης αναγνώρισης ομιλίας με πολλαπλούς αισθητήρες και εφαρμογές σε ευφυή περιβάλλοντα

Η αυτόματη αναγνώριση ομιλίας διαδραματίζει σημαντικό ρόλο στην αλληλεπίδραση ανθρώπου-υπολογιστή διότι η ομιλία αποτελεί ένα φυσικό, γρήγορο, και ασφαλές μέσο επικοινωνίας, με ευρύ πεδίο εφαρμογών στα σύγχρονα πολυαισθητηριακά ευφυή περιβάλλοντα (πχ. αυτοματοποιημένοι χώροι, ρομποτικά συστήματα) τα οποία σχεδιάζονται για τη βελτίωση της καθημερινότητας και της εργασίας των χρηστών τους. Τα τελευταία χρόνια, οι τεχνικές βαθιάς εκμάθησης με νευρωνικά δίκτυα έχουν επιφέρει σημαντικές βελτιώσεις, μειώνοντας το ποσοστιαίο λάθος αναγνώρισης λέξεων (word error rate) κάτω από 10% στις περισσότερες εφαρμογές με μικρόφωνα κοντά στον ομιλητή. Συνεπώς, τα φωνητικά συστήματα χρησιμοποιούνται όλο περισσότερο στην καθημερινότητα. Ωστόσο οι προκλήσεις παραμένουν αρκετές, ειδικά σε περιβάλλοντα με μικρόφωνα μακριά από τον ομιλητή, όπου ο θόρυβος και οι αντηχήσεις υποβαθμίζουν αισθητά την απόδοση της αναγνώρισης. Στην παρούσα διατριβή εξετάζουμε και συνδυάζουμε μεθόδους εύρωστης αναγνώρισης ομιλίας με πολλαπλούς αισθητήρες. Συγκεκριμένα, η προτεινόμενη μεθοδολογία περιλαμβάνει 1) επιλογή αξιόπιστων μικροφώνων βάσει κριτηρίων ποιότητας των σημάτων, 2) συνδυασμό των αποφάσεων των μικροφώνων με αναδιάταξη των υποθέσεων αναγνώρισης, 3) εκπαίδευση τύπου multi-style με τεχνητή αύξηση των δεδομένων εκπαίδευσης προσομοιώνοντας ακουστικές σκηνές και σήματα ομιλίας μακρινού πεδίου (far-field) για εφαρμογές σε περιβάλλοντα με περιορισμένους πόρους, και 5) εξαγωγή μη-γραμμικών χαρακτηριστικών AM-FM.Προτείνεται μέθοδος πολυκαναλικής αποδιαμόρφωσης των σημάτων φωνής, για την εξαγωγή βελτιωμένων χαρακτηριστικών από τις στιγμιαίες διαμορφώσεις συχνότητας, οι οποίες μοντελοποιούν τις μικροδομές των συντονισμών της φωνής και αποτελούν χρήσιμη και συμπληρωματική πηγή πληροφορίας στα τυπικά χαρακτηριστικά ενέργειας (πχ. MFCC). Ενώ έχουν βρεθεί βελτιώσεις κυρίως σε συστήματα GMM-HMM μεγάλου λεξιλογίου, λίγες είναι οι εφαρμογές τους σε συστήματα DNN-HMM και στην αναγνώριση DSR γενικά. Εδώ, εργαζόμαστε για τη συνέργιά τους σε state-of-the-art σχήματα front-end στα οποία τα MFCCs ομαδοποιούνται σε μεγαλύτερα χρονικά πλαίσια (context) και μετασχηματίζονται έτσι ώστε να γίνουν πιο διακριτά και ανεξάρτητα του ομιλητή. Ερευνούμε 1) πολυκαναλικές μεθόδους αποδιαμόρφωσης, 2) νέους και πλουσιότερους περιγραφητές των συχνοτήτων διαμόρφωσης, και 3) μετασχηματισμούς και συνδυασμό χαρακτηριστικών μέσω ιεραρχικών βαθιών νευρωνικών δικτύων τύπου bottleneck. Παρουσιάζουμε αποτελέσματα στα σχήματα υβριδικής αναγνώρισης και αναγνώρισης tandem με μοντελοποίηση GMM και DNN αντίστοιχα, όπου τα βελτιωμένα χαρακτηριστικά διαμορφώσεων συνδυάζονται αποδοτικά με τα MFCC και οδηγούν σε βελτιωμένη απόδοση σε γνωστές πολυκαναλικές βάσεις αξιολόγησης της αναγνώρισης από απόσταση (Distant Speech Recognition).Βασιζόμαστε στις προτεινόμενες πολυκαναλικές μεθόδους για να σχεδιάζουμε ένα πρακτικό σύστημα συνεχούς αναγνώρισης φωνητικών εντολών μακρινού πεδίου, σε ευφυή οικιακά περιβάλλοντα με διάσπαρτες συστοιχίες μικροφώνων σε ένα ή περισσότερα δωμάτια. Ακολουθούμε μία τυπική σειρά (cascade) διεργασιών για τον εντοπισμό και την αναγνώριση εντολών, με τον εντοπισμό να γίνεται βάσει φράσεων ενεργοποίησης. Στην αρχή της αλυσίδας επεξεργασίας, τα τμήματα ομιλίας εντοπίζονται και διαχωρίζονται σε κάθε δωμάτιο, επιτρέποντας την αναγνώριση ανά δωμάτιο. Με την προτεινόμενη προσέγγιση, η οποία αναπτύσσεται για τα Ελληνικά, επιτυγχάνεται ικανοποιητική απόδοση σε πραγματικές και δύσκολες οικιακές ακουστικές σκηνές, φτάνοντας έως 76.6% στην ακρίβεια αναγνώρισης εντολών, επιφέροντας σχετική βελτίωση 46% συγκριτικά με ένα τυπικό σύστημα στο οποίο χρησιμοποιείται beamforming για αποθορυβοποίηση.Υλοποιούμε την online εκδοχή του προτεινόμενου συστήματος αναγνώρισης φωνητικών εντολών για τέσσερις γλώσσες (Ελληνικά, Γερμανικά, Ιταλικά, Αγγλικά) και το συνδυάζουμε με την αναγνώριση χειρονομιών στοχεύοντας στην πολυτροπική αλληλεπίδραση ανθρώπου-ρομπότ. Στο πλαίσιο σχεδιασμού ρομποτικών βοηθών, αναπτύσσουμε ένα φυσικό περιβάλλον αλληλεπίδρασης εκμεταλλευόμενοι τις πολλαπλές ροές πληροφορίας από το πολυαισθητηριακό περιβάλλον του ρομπότ. Οι συμπληρωματικές ροές συνδυάζονται σε επίπεδο αποφάσεων για να εξαχθεί μία πολυτροπική υπόθεση αναγνώρισης. Επιπλέον, μέσω της αλληλεπίδρασης με το ρομπότ, εξετάζουμε νέες πτυχές στο πεδίο της ρομποτικής για υποβοήθηση στην καθημερινότητα (assistive living), αναπτύσσοντας ένα σύνολο εργαλείων και δεδομένων για πολυτροπική αναγνώριση, τα οποία εφαρμόζουμε σε δύο πραγματικά παραδείγματα χρήσης (use cases) για ηλικιωμένους χρήστες: κατά την υποβοήθηση στην κίνηση από ένα ρομποτικό τροχήλατο όχημα και κατά την υποβοήθηση σε εργασίες πλύσης από έναν ρομποτικό βοηθό στο μπάνιο. Ακολουθώντας την προτεινόμενη σύμμειξη των δύο μέσων επιτυγχάνουμε υψηλά ποσοστά πολυτροπικής αναγνώρισης (έως 90%) σε απαιτητικά σενάρια αλληλεπίδρασης με ηλικιωμένους και χρήστες με κινητικά και ενδεχομένως νοητικά προβλήματα.

περισσότερα

Περίληψη σε άλλη γλώσσα

Automatic speech recognition is extensively used in human-computer interaction mainly because communication via speech is natural, fast, and safe. Speech applications and voice-enabled, hands-free technologies are increasingly integrated to the modern area of multisensory smart environments (e.g., smart homes, assistive robotics), targeting life wellness and effectiveness at work. The recent advancements of deep learning have brought significant improvements, yielding word error rates below 10% in most cases of recognition with close-talk microphones. However, many challenges remain unsolved, especially in Distant Speech Recognition (DSR) applications where noise and reverberation effects degrade significantly the performance.In this dissertation, we examine a combination of multichannel methods for robust DSR using microphone arrays. More specifically, the proposed methodology includes 1) microphone selection using signal-based criteria of confidence, 2) microphone combination in the decision level following a hypothesis rescoring approach, 3) data augmentation and multi-style training by simulating domestic acoustic scenes with noisy far-field speech for applications in environments with limited amount of training data, 4) multi-microphone adaptation schemes, and 5) extraction of non-linear AM-FM features that are combined with traditional energy-based features. A multichannel demodulation approach is proposed for the extraction of improved frequency modulation features that capture the fine structure of speech formants and constitute beneficial and supplementary to the traditional energy-based cepstral features (e.g, MFCCs). Improvements have been demonstrated mainly in GMM-HMM systems for small and large vocabulary tasks. Yet, they have limited applications in DNN-HMM systems and DSR tasks. Herein, we elaborate on their integration within state-of-the-art front-end schemes that include tansformation of MFCCs resulting in discriminant and speaker-adapted features of large temporal contexts. We explore 1) multichannel demodulation schemes for multi-microphone setups, 2) richer descriptors of frequency modulations, and 3) feature transformation and combination via hierarchical deep bottleneck networks. We present results for tandem and hybrid recognition with GMM and DNN acoustic models, respectively. The improved modulation features are combined efficiently with MFCCs yielding modest and consistent improvements in widely known and challenging corpora for multi-microphone DSR benchmarking.Based on the proposed multichannel methods, a practical system pipeline is designed for always-listening, far-field spoken command recognition in every-day smart indoor environments of multiple rooms equipped with sparsely distributed microphone arrays. The system consists of a traditional cascade of far-field spoken command detection and recognition, the former based on the detection of activating key-phrases. A room-dependent speech activity detection module is used to enable parallel recognition pipelines in each room. The proposed approach is developed for the Greek language, exhibiting promising performance in real and challenging domestic acoustic scenes, reaching 76.6% command recognition accuracy, a result that represents 46% relative improvement over conventional beamforming.An online version of the proposed spoken command recognition system is implemented for four languages (Greek, German, Italian, English) and combined with gesture recognition, aiming at multimodal human-robot interaction. Within the context of assistive robotics, we develop a smart and natural interface that provides multimodal sensory processing capabilities. By fusing the complementary unimodal information streams, we obtain the optimum multimodal hypothesis. Additionally, we explore new aspects on assistive living via smart social human-robot interaction (HRI). We provide a framework of resources, including datasets and tools that are demonstrated in two real-life use cases for elderly subjects: a multi-modal interface of an assistive robotic rollator and an assistive bathing robot, where following the proposed fusion scheme, the obtained command accuracy reaches 90% in real interaction scenarios with elderly users.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (12.23 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/44766
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/44766
ND	44766
Εναλλακτικός τίτλος	Robust multichannel automatic speech recognition for smart environments
Συγγραφέας	Ροδομαγουλάκης, Ισίδωρος (Πατρώνυμο: Ευτύχιος)
Ημερομηνία	2018
Ίδρυμα	Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής
Εξεταστική επιτροπή	Μαραγκός Πέτρος Ποταμιάνος Αλέξανδρος Ποταμιάνος Γεράσιμος Τζαφέστας Κώστας Τσανάκας Παναγιώτης Φωτεινέα Ευίτα-Σταυρούλα Στάμος Γιώργος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Αυτόματη αναγνώριση ομιλίας; Επικοινωνία ανθρώπου - μηχανής; Ευφυή περιβάλλοντα
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	xiv, 112 σ., εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Τεχνητή νοημοσύνη: μια ηθικο-συνταγματική θεώρηση

Deep neural networks for information mining from legal texts

Ανάπτυξη μερικώς επιβλεπόμενων αλγορίθμων μηχανικής μάθησης

Declarative specification of data analytics tasks

Analyzing perspectives on remote education: an NLP/ML pipeline for modern Greek interview data

Η ταυτότητα της Σαλαμίνας από τα τέλη του 17ου αιώνα έως και τα μέσα του 19ου αιώνα: μια ιστορική και λαογραφική προσέγγιση μέσα από δικαιοπρακτικά έγγραφα αρχείων, προφορικές παραδόσεις, περιηγητικά κείμενα και άλλες πρωτογενείς πηγές

Συμβολή στη μοντελοποίηση κυματοδηγών συζευγμένων οπτικών αντηχείων σε φωτονικούς κρυστάλλους

Federated, multi-agent, deep reinforcement learning

Ανάπτυξη πρωτότυπων αλγορίθμων μηχανικής μάθησης για χρήση σε εκπαιδευτικά δεδομένα και σε συστήματα διαχείρισης εκπαιδευτικού περιεχομένου

Natural language processing for business documents

"Μέθοδοι εύρωστης αναγνώρισης ομιλίας με πολλαπλούς αισθητήρες και εφαρμογές σε ευφυή περιβάλλοντα"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .