Improving generative adversarial networks and its applications in speech synthesis

Σε αυτή τη διατριβή, εξετάζουμε σημαντικές προόδους στον τομέα της μηχανικής μάθησης. Generative Adversarial Networks (GANs) και στη χρήση τους για τη βελτίωση της δημιουργίας εικόνων και του τρόπου που οι υπολογιστές παράγουν ομιλία.Δεδομένων των πρόσφατων αλμάτων στην εκπαίδευση των GANs, είναι επιτακτική η ενασχόληση και η βελτίωση της σταθερότητας της διαδικασίας εκπαίδευσης. Επομένως, το πρώτο μέρος αυτής της διατριβής δίνει ξεχωριστή έμφαση στην διερεύνηση αλγοριθμικών βελτιώσεων με σκοπό την καλύτερη εκπαίδευση GANs. Στόχος είναι η διείσδυση σε στρατηγικές που αντιμετωπίζουν δυσκολίες και αστάθειες κατά την εκπαίδευση των GANs, και επομένως συνεισφέρουν στην συνολική αναβάθμιση της διαδικασίας εκπαίδευσης. Προτείνουμε έναν καινοτόμο βαρο-κεντρικό αλγόριθμο που στοχεύει στην ενίσχυση της Γεννήτριας. Τα θεωρητικά θεμέλια αυτής της προσέγγισης υποδεικνύουν καλύτερες επιδόσεις σε σχέση με τον κατεστημένο αλγόριθμο, με την δημιουργία μιας πιο ικανής Γεννήτριας σε κάθε επανάληψη. Εμπειρικά αποτελέσματα στηρίζουν αυτή την υπόθεση, αναδεικνύοντας σημαντική βελτίωση στην ακρίβεια και ταχύτερους ρυθμούς σύγκλισης μεταξύ συνθετικών συλλογών δεδομένων και συλλογών δεδομένων με εικόνες. Το ποσοστό βελτίωσης κυμαίνεται ανάμεσα σε ένα 5% και ένα εντυπωσιακό 50%. Αναφορικά με τις συναρτήσεις κόστους, εισάγουμε μια νέα προσέγγιση βασισμένη σε αθροιστικές γεννήτριες συναρτήσεις. Αυτή η μέθοδος προσφέρει μία νέα οπτική στις συναρτήσεις κόστους στα GANs, με την χρήση ενός μεγάλου εύρους αποκλίσεων και αποστάσεων, βασισμένων σε αθροιστικές γεννήτριες συναρτήσεις, και στηρίζεται σε μία πρόσφατη σχέση διακυμάνσεων. Δείχνουμε ότι η αντίστοιχη βελτιστοποίηση είναι ισοδύναμη με την μέθοδο ελαχιστοποίησης της απόκλισης του Renyi, και άρα προσφέρει μια (μερικώς) καθολική οπτική στα κόστη GANs: η οικογένεια Renyi χρησιμοποιεί Kullback-Leibler απόκλιση KLD, αντίστροφο KLD, απόσταση Hellinger απόκλιση χ². Συγχρόνως, βελτιώνει την σταθερότητα εκπαίδευσης, ιδίως όταν χρησιμοποιούνται πιο αδύναμοι διακριτές, και αναδεικνύει σηματική βελτίωση στην παραγωγή συνθετικών εικόνων σε συλλογές δεδομένων όπως CIFAR-10 και Imagenet . Οι αποσυνδεδεμένες αναπαραστάσεις είναι απαραίτητες για την αποτύπωση των κατανομών πιθανοτήτων και την μέτρηση της απόκλισης. Η εκτίμηση της Αμοιβαίας Πληροφορίας, συγκεκριμένα μέσω του KLD, ειναι μία συνήθης προσέγγιση για την ενίσχυση της αποσύνδεσης. Μελετάμε την χρήση μεταβαλλόμενων αναπαραστάσεων, βασισμένων ιδίως στην ελαχιστοποίηση των αποκλίσεων Renyi, ως εναλλακτική του KLD . Οι αποκλίσεις Renyi προσφέρουν πλεονεκτήματα στην σύγκριση διαφορετικών τύπων κατανομών. Το κείμενο δίνει έμφαση στην χρήση κλιμακούμενων νευρωνικών δικτύων εκτιμητών για την αποτελεσματική εκτίμηση της Αμοιβαίας Πληροφορίας. Παρά τη δυνατότητα για μια μεγάλη στατιστική εκτίμηση, η χρήση μίας μεταβαλλόμενης αναπαράστασης, βασισμένης στις αποκλίσεις Renyi, αποδεικνύεται εφικτή και αποτελεσματική. Η μέθοδος είναι ιδιαίτερα επιτυχής στην βελτίωση της σταθερότητας σε πραγματικά βιολογικα δεδομένα, επιτρέποντας την ανίχνευση σπάνιων υποπληθυσμών ακόμη και με περιορισμένα δείγματα. Ακόμη, η δυσκολία στην ακριβή εκτίμηση των αποκλίσεων αποτελεί μία σημαντική πρόκληση σε πολλά προβλήματα μηχανικής μάθησης, ειδικά σε μεγάλης διάστασης δεδομένα που οδηγούν σε αυξημένη διακύμανση. Για την αντιμετώπιση αυτής της πρόκλησης προτείνουμε μία λύση: την χρήση μίας ποινής διακύμανσης στην αντικειμενική συνάρτηση της εκτίμησης της απόκλισης. Αυτή η πρόσθετη ποινή στοχεύει στην μείωση της διακύμανσης που σχετίζεται με τον εκτιμητή, παρέχοντας ένα πιθανό τρόπο βελτίωσης της αρκίβειας της εκτίμησης των αποκλίσεων. Σε αυτό το μέρος της διατριβής, η προσοχή μας στρέφεται στις πρακτικές χρήσεις της σύνθεσης φωνής, όπως η μετατροπή μίας φωνής σε άλλη (μετασχηματισμός φωνής) και η παραγωγή λόγου από κείμενο (κείμενο-σε-φωνή-σύνθεση, TTS). Εισάγουμε καινοτόμες τεχνικές για μετασχηματισμό φωνής που στοχεύουν κυρίως στον πολλές-σε-πολλές μετασχηματισμό φωνής. Χρησιμοποιώντας έννοιες από τον προηγούμενο βαρο-κεντρικό αλγόριθμο, προτείνουμε μια προσέγγιση πολλαπλασιασμού βαρών για την βελτίωση των παραγώγων της Γεννήτριας, καθιστώντας την πιο ικανή στο να 'ξεγελάει' τον Διακριτή. Αυτό οδηγεί σε ένα εύρωστο σύστημα Weighted StarGAN (WeStarGAN). Είναι αξιοσημείωτο ότι το WeStarGAN επιτυγχάνει σημαντικά ανώτερη επίδοση σε σχέση με συμβατικές μεθόδους. Σημειώνει σκορ επίδοσης της τάξης του 75% και 65% σε ότι αφορά την υποκειμενική ποιότητα φωνής και την ομοιότητα ομιλητή αντίστοιχα. Οι νευρωικοί vocoders συχνά αντιμετωπίζουν δυσκολίες στην γενίκευση, ειδικά σε άγνωστους ομιλητές και συνθήκες. Εδώ, εισάγουμε το Speaker Conditional WaveRNN (SC-WaveRNN), που χρησιμοποιεί ενσωματώσεις ομιλητών για την βελτίωση της ποιότητας της φωνής και της επίδοσης. Αυτή η εναλλατκική ξεπερνά σημαντικά το βασικό WaveRNN, επιτυγχάνοντας εντυπωσική βελτίωση της τάξης εώς και 95% σε ότι αφορά το Σκορ Μέσης Άποψης ( MOS) για άγνωστους ομιλητές και συνθήκες. Ως επιπλέον επέκταση υλοποιούμε μία προσέγγιση πολλαπλών-ομιλητών κέιμενο-σε-φωνή σύνθεσης, αντιμετωπίζοντας την προσαρμογή σε άγνωστους κατά την εκπαίδευση ομιλητές. Αναφορικά με το Universal TTS, παρουσιάζουμε ένα σύστημα, ικανό να παράγει φωνή με ποικίλα στυλ ομιλίας και χαρακτηριστικά ομιλητή, χωρίς την ανάγκη επισημείωσης του στυλ ή του ομιλητή. Παρουσιάζουμε μία νέα προσέγγιση βασισμένη στην Απόκλιση Renyi και την αποσυνδεδεμένη αναπαράσταση. Αυτή η καινοτόμα μέθοδος μειώνει αποτελεσματικά την διαρροή περιεχομένου και στυλ, επιφέροντας ουσιώδη βελτίωση στον ρυμθό λάθος λέξεων και στην ποιότητα φωνής. Ο προτεινόμενος αλγόριθμος μας επιτυγχάνει βελτίωση περίπου 16%- 20% στην ποιότητα φωνής MOS, μαζί με μία αναβάθμιση της τάξης του 15% στην ομοιότητα κατά MOS. Τέλος, η αυξανόμενη χρήση ψηφιακών βοηθών τονίζει την σημασία των συστημάτων TTS στις σύγχρονες συσκευές. Η εξασφάλιση της παραγωγής καθαρού λόγου σε θορυβώδη περιβάλλοντα είναι επιτακτική. Η καινοτόμα προσέγγιση μας μεταφοράς μάθησης στο TTS αξιοποιεί τη δύναμη του συνδυασμού δύο αποτελεσματικών στρατηγικών: δεδομένα στυλ ομιλίας Lombard και SSDRC. Αυτό το επεκταμένο σύστημα, Lombard-SSDRC TTS, βελτιώνει σημαντικά την κατανοησιμότητα, με σχετικές αναβαθμίσεις που κυμαίνονται από 110% εώς 130% στο θόρυβο με μορφή φωνής (SSN) και από 47% εώς 140% στο θόρυβο από ανταγωνιστές-ομιλητές (CSN), συγκριτικά με σύγχρονες μεθόδους TTS. Υποκειμενικές αξιολογήσεις επιβεβαιώνουν περαιτέρω σημαντική βελτίωση, με μια αύξηση στο μέσο ρυθμό διόρθωσης λέξεων κλειδιών της τάξης του 455% στο (SSN) και 104% στο (CSN) σε σχέση με την βασική μέθοδο TTS.

περισσότερα

Περίληψη σε άλλη γλώσσα

In this thesis, we explore significant advancements in machine learning. We focus on improving algorithms for Generative Adversarial Networks (GANs) and using them to improve image generation and computer speech generation. Given the recent strides in GAN training, it is imperative to address and enhance the stability of the training process. Consequently, the first part of this thesis places a distinct emphasis on exploring algorithmic advancements tailored to improved GAN training. The objective is to delve into strategies that mitigate challenges and instabilities encountered during the training of GANs, thereby contributing to the overall refinement of the training process. We propose a novel weight-based algorithm aimed at strengthening the Generator. The theoretical underpinnings of this approach suggest that it outperforms the baseline algorithm by creating a more potent Generator at each iteration. Empirical results show substantial accuracy improvements and faster convergence rates across synthetic and image datasets. The improvements range between 5% and a remarkable 50%. In the realm of GAN loss functions, we introduce a novel approach based on cumulant generating functions. This technique offers a fresh perspective on GAN loss functions by encompassing various divergences and distances based on cumulant generating functions and relies on a recently derived variational formula. We show that the corresponding optimization is equivalent to R{\'e}nyi divergence minimization, thus offering a (partially) unified perspective of GAN losses: the R{\'e}nyi family encompasses Kullback-Leibler divergence (KLD), reverse KLD, Hellinger distance, and $\chi^2$-divergence. Besides, it enhances training stability, particularly when weaker discriminators are employed, and demonstrates substantial improvements in synthetic image generation on datasets like CIFAR-10 and Imagenet.Disentangled representations are crucial for capturing probability distributions and measuring divergences effectively. Mutual Information (MI) estimation, specifically through Kullback-Leibler Divergence (KLD), is commonly used to enforce disentanglement. We explore using variational representations, particularly based on minimizing R{\'e}nyi divergences, as an alternative to KLD. R{\'e}nyi divergences offer advantages in comparing different types of distributions. The text emphasizes using scalable neural network estimators for efficient MI estimation. Despite the potential for large statistical estimation, incorporating a variational representation based on R{\'e}nyi divergences proves feasible and effective. The method is particularly successful in enhancing stability in real biological data, enabling the detection of rare sub-populations even with limited samples. Moreover, the difficulty of precisely estimating divergences poses a significant challenge in many machine learning tasks, especially when dealing with high-dimensional datasets that can lead to increased variance. In addressing this challenge, we suggest a solution: incorporating an explicit variance penalty (VP) into the objective function of the divergence estimator. This added penalty aims to decrease the variance associated with the estimator, providing a potential way to enhance the accuracy of divergence estimations. In this part of the thesis, our attention shifts to practical uses in speech synthesis, such as transforming one voice into another (voice conversion) and turning written text into spoken words (text-to-speech synthesis). We introduce innovative techniques for voice conversion that focus on many-to-many voice conversion. Leveraging concepts from the previous weight-based algorithm, we propose a weight multiplication approach to enhance the Generator's gradients, making it more adept at fooling the Discriminator. This results in a robust Weighted StarGAN (WeStarGAN) system. Notably, WeStarGAN achieves significantly superior performance compared to conventional methods. It garners preference scores of 75% and 65% in terms of speech subjective quality and speaker similarity, respectively. Neural vocoders often struggle with generalization, especially to unseen speakers and conditions. Here, we introduce the Speaker Conditional WaveRNN (SC-WaveRNN), which leverages speaker embeddings to improve speech quality and performance. This variant significantly outperforms baseline WaveRNN, achieving impressive improvements of up to 95% in terms of Mean Opinion Score (MOS) for unseen speakers and conditions. We extend this work further by implementing a multi-speaker text-to-speech (TTS) synthesis approach, effectively tackling zero-shot speaker adaptation. In the realm of Universal TTS, we present a system capable of generating speech with various speaking styles and speaker characteristics, all without the need for explicit style annotation or speaker labels. We propose a novel approach based on R\'enyi Divergence and Disentangled Representation. This innovative method effectively reduces content and style leakage, resulting in substantial improvements in word error rate and speech quality. Our proposed algorithm achieves improvements of approximately 16-20% in MOS speech quality, alongside a 15% boost in MOS-style similarity. Lastly, the growing use of digital assistants highlights the importance of TTS synthesis systems on modern devices. Ensuring clear speech generation in noisy environments is crucial. Our innovative transfer learning approach in TTS harnesses the power of amalgamating two effective strategies: Lombard speaking style data and Spectral Shaping and Dynamic Range Compression (SSDRC). This extended system, Lombard-SSDRC TTS, significantly improves intelligibility, with relative enhancements ranging from 110% to 130% in speech-shaped noise (SSN) and 47% to 140% in competing-speaker noise (CSN) compared to state-of-the-art TTS methods. Subjective evaluations further confirm substantial improvements, with a median keyword correction rate increase of 455% for SSN and 104% for CSN compared to the baseline TTS method.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (12.15 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/56973
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/56973
ND	56973
Εναλλακτικός τίτλος	Improving generative adversarial networks and its applications in speech synthesis
Συγγραφέας	Πόλ, Ντιπτζιότι (Πατρώνυμο: Ντιλίπκουμαλ)
Ημερομηνία	2024
Ίδρυμα	Πανεπιστήμιο Κρήτης. Σχολή Θετικών και Τεχνολογικών Επιστημών. Τμήμα Επιστήμης Υπολογιστών
Εξεταστική επιτροπή	Στυλιανού Ιωάννης Πανταζής Ιωάννης King Simon Τσακαλίδης Παναγιώτης Τσαγκατάκης Γρηγόρης Κομοντάκης Νικόλαος Κατσούρος Βασίλειος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Υπολογιστές, Υλικό (hardware) και Αρχιτεκτονική
Λέξεις-κλειδιά	Μηχανική μάθηση και τεχνητή νοημοσύνη
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	εικ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Μέθοδοι βαθιάς μάθησης (deep learning) για την ανάλυση φασματοσκοπικών μεθόδων

Ανάπτυξη μεθοδολογιών για την υποβοηθούμενη διάγνωση συμπλεγμάτων μικροασβεστώσεων του μαστού

"Βελτίωση των γεννητικών αντιπαραθετικών δικτύων και οι εφαρμογές τους στη σύνθεση ομιλίας"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .