Περίληψη
Στην παρούσα διατριβή παρουσιάζονται προηγμένες τεχνικές επεξεργασίας ηχητικών σημάτων με στόχο τη βελτίωση της εμπειρίας ακρόασης με ακουστικά καθώς και τη βελτιστοποίηση αλγορίθμων που εφαρμόζονται σε συσκευές ιδιωτικής ακρόασης, αντλώντας έμπνευση από τις τάσεις της αγοράς σε συνδυασμό με κοινά προβλήματα που απαντώνται κατά τη διάρκεια συνηθισμένων σεναρίων ακρόασης, όπως περιγράφεται στο Κεφάλαιο 1, κατά τα οποία ο ακροατής εκτίθεται σε διάφορους τύπους ενοχλητικού θορύβου, οδηγώντας σε μια λιγότερο ευχάριστη εμπειρία ακρόασης. Για την αντιμετώπιση αυτών των προκλήσεων, η διατριβή επικεντρώνεται στην προσαρμοστική ισόστάθμιση και αναγνώριση συστημάτων, σε νέες τεχνικές ενεργής ακύρωσης θορύβου και στον εντοπισμό πηγών ήχου μέσω αμφιωτικών καταγραφών.Τα θεωρητικά θεμέλια των τεχνικών που μελετούνται στη διατριβή περιγράφονται στο Κεφάλαιο 2, καλύπτοντας αντικείμενα όπως η ισοστάθμιση, το προσαρμοστικό φιλτράρισμα, την ενεργή ακύρωση θορύβου, την επεξεργασία συστοιχιών μικροφώνων κα ...
Στην παρούσα διατριβή παρουσιάζονται προηγμένες τεχνικές επεξεργασίας ηχητικών σημάτων με στόχο τη βελτίωση της εμπειρίας ακρόασης με ακουστικά καθώς και τη βελτιστοποίηση αλγορίθμων που εφαρμόζονται σε συσκευές ιδιωτικής ακρόασης, αντλώντας έμπνευση από τις τάσεις της αγοράς σε συνδυασμό με κοινά προβλήματα που απαντώνται κατά τη διάρκεια συνηθισμένων σεναρίων ακρόασης, όπως περιγράφεται στο Κεφάλαιο 1, κατά τα οποία ο ακροατής εκτίθεται σε διάφορους τύπους ενοχλητικού θορύβου, οδηγώντας σε μια λιγότερο ευχάριστη εμπειρία ακρόασης. Για την αντιμετώπιση αυτών των προκλήσεων, η διατριβή επικεντρώνεται στην προσαρμοστική ισόστάθμιση και αναγνώριση συστημάτων, σε νέες τεχνικές ενεργής ακύρωσης θορύβου και στον εντοπισμό πηγών ήχου μέσω αμφιωτικών καταγραφών.Τα θεωρητικά θεμέλια των τεχνικών που μελετούνται στη διατριβή περιγράφονται στο Κεφάλαιο 2, καλύπτοντας αντικείμενα όπως η ισοστάθμιση, το προσαρμοστικό φιλτράρισμα, την ενεργή ακύρωση θορύβου, την επεξεργασία συστοιχιών μικροφώνων και τα Νευρωνικά Δίκτυα. Η διατριβή ολοκληρώνεται με μια σύνοψη των συνεισφορών της καθώς και πιθανών μελλοντικών κατευθύνσεων έρευνας στο Κεφάλαιο 8. Το Κεφάλαιο 3 εισάγει μια μέθοδο προσαρμοστικής ισοστάθμισης που αξιοποιεί μια παράλληλη δομή biquad φίλτρων, ικανή να διορθώνει τις αποκρίσεις συχνότητας των ακουστικών με χαμηλή τάξη φίλτρου, κατάλληλη για εφαρμογές πραγματικού χρόνου. Αυτή η μέθοδος απαιτεί ελάχιστη αλληλεπίδραση από τον χρήστη και μοντελοποιεί αποδοτικά αυθαίρετες αποκρίσεις συστημάτων. Η μέθοδος αξιολογείται τόσο μέσω αντικειμενικών όσο και υποκειμενικών κριτηρίων, αποδεικνύοντας την αποτελεσματικότητά της. Το Κεφάλαιο 4 παρουσιάζει ένα ψυχοακουστικό σύστημα ANC που υπολογίζει ένα κατώφλι μάσκας με βάση τη ροή ήχου από τη συσκευή ακρόασης, σχεδιάζοντας ένα φίλτρο υπολειμματικού θορύβου για την ακύρωση του μη καλυμμένου θορύβου. Με αυτόν τον τρόπο, ο θόρυβος μειώνεται στις πιο ευαίσθητες περιοχές συχνοτήτων, ενώ αγνοούνται τα μη ακουστά στοιχεία θορύβου, επιτυγχάνοντας ένα πιο αντιληπτικά αποδεκτό αποτέλεσμα. Τα Κεφάλαια 5 και 6 αφορούν μια χωρικά ευαίσθητη, στοχευμένη τεχνική ακύρωσης θορύβου με διαμορφωτή δέσμης, που χρησιμοποιεί έναν νέο, ειδικά σχεδιασμένο δείκτη Disturbance για την ενίσχυση της καταστολής θορύβου σε συγκεκριμένες κατευθύνσεις. Αυτό το σύστημα λειτουργεί κατευθύνοντας τον διαμορφωτή δέσμης προς την πιο ανεπιθύμητη ή ενοχλητική πηγή, βελτιώνοντας έτσι τη συνολική ακουστική εμπειρία. Το Κεφάλαιο 7 εισάγει μια μέθοδο συμπίεσης αμφιωτικών παραμέτρων, η οποία αξιολογείται εφαρμόζοντάς την σε ένα μοντέλο μηχανικής μάθησης εντοπισμού πηγών ήχου, ικανό να εντοπίζει πηγές σε ακουστικές σκηνές με αντήχηση. Η διαδικασία συμπίεσης μειώνει σημαντικά το μέγεθος των παραμέτρων, διατηρώντας παράλληλα την απόδοση του μοντέλου στον εντοπισμό διαφορετικών τύπων πηγών.
περισσότερα
Περίληψη σε άλλη γλώσσα
This dissertation explores advanced techniques in audio signal processing to enhance the listening experience of headphone users via the perceptual optimization of algorithms applied in personal audio devices. It draws inspiration from established market trends coupled with common issues encountered during modern audio reproduction scenarios, as described in the Motivation section of Chapter 1. In such scenarios, the user may be exposed to different types of disturbing noise, which reduce the overall audio quality and lead to a less enjoyable listening experience. To address these challenges, this dissertation focuses on adaptive equalization and system identification, novel time-domain psychoacoustic as well as spatially aware active noise control systems, and binaural sound source localization. The theoretical foundations for the techniques developed in this dissertation are established in Chapter 2, covering audio equalization, adaptive filtering, active noise control, phased array ...
This dissertation explores advanced techniques in audio signal processing to enhance the listening experience of headphone users via the perceptual optimization of algorithms applied in personal audio devices. It draws inspiration from established market trends coupled with common issues encountered during modern audio reproduction scenarios, as described in the Motivation section of Chapter 1. In such scenarios, the user may be exposed to different types of disturbing noise, which reduce the overall audio quality and lead to a less enjoyable listening experience. To address these challenges, this dissertation focuses on adaptive equalization and system identification, novel time-domain psychoacoustic as well as spatially aware active noise control systems, and binaural sound source localization. The theoretical foundations for the techniques developed in this dissertation are established in Chapter 2, covering audio equalization, adaptive filtering, active noise control, phased array processing, and Artificial Intelligence, with a focus on Neural Networks. The dissertation concludes with a summary of contributions in the field of audio engineering and potential future research directions in Chapter 8.Chapter 3 introduces an adaptive equalization method using a parallel biquad filter structure, capable of compensating for headphone frequency responses with low filter order, making it suitable for real-time applications. This method requires minimal user interaction and effectively models arbitrary system responses. It is evaluated using both objective and subjective criteria, demonstrating its efficacy. Chapter 4 presents a psychoacoustic ANC system that computes a masking threshold based on the streamed audio signal and models a residual noise filter to cancel unmasked noise. This approach reduces noise in the most audible frequency regions while disregarding inaudible noise components, achieving a more perceptually compliant result. It leverages psychoacoustic principles to improve noise cancellation without compromising audio quality. Chapters 5 and 6 discuss a spatially aware, targeted beamforming ANC technique that utilizes a novel, purpose-designed disturbance metric to enhance noise suppression in specific directions. This system dynamically steers the beamformer toward the most disturbing source, improving the overall listening experience. Chapter 7 proposes a binaural parameter compression technique applied to a sound source localization model. The method significantly reduces the size of input features—Interaural Level Difference (ILD) and Interaural Time Difference (ITD)—while maintaining high localization performance across a range of reverberant acoustic scenes and source types, including speech and music.
περισσότερα