Variational inference applications in deep learning

Świątkowski, Jakub

Praca doktorska

Pliki

0000-DR-375986-praca.pdf12.85 MB

JSwiatkowski_rec_TTrzcinski.pdf1.65 MB

JSwiatkowski_rec_JTabor.pdf2.06 MB

JSwiatkowski_opinia_MCygan.pdf51.04 KB

JSwiatkowski_rec_JChorowski.pdf873.33 KB

Licencja

Dostęp zamknięty

Variational inference applications in deep learning

dc.abstract.en	This PhD thesis explores the intersection of deep learning and variational inference, two significant areas in machine learning and statistics. While deep learning models have demonstrated exceptional performance across a range of applications, their inherent limitations in uncertainty quantification and probabilistic predictions present significant challenges. To overcome these challenges, this research leverages the principles of Bayesian inference to imbue deep learning models with robustness, interpretability, and probabilistic reasoning. However, direct application of Bayesian inference in complex models such as deep learning networks is intractable due to computational and scalability issues. To address this, the thesis employs variational inference as an approximation technique. This work specifically explores the application of variational inference to Bayesian neural networks and neural speech synthesis. In the context of Bayesian neural networks (BNNs), variational inference is applied to the weights of the network. The research presented in this thesis significantly enhances our understanding and utilization of BNNs. It uncovers that a commonly used form of variational inference in BNNs exhibits a low-rank structure. This discovery allows for a reduction in the number of parameters and leads to accelerated model training. Additionally, the research presents an intriguing finding that BNNs deviating from the theoretically optimal Bayes inference show improved performance. A series of hypotheses are systematically examined to explain this observed behaviour. In the domain of speech synthesis, variational inference is applied to learning disentangled, interpretable, and controllable latent representations of data using Variational Auto-Encoders (VAEs). The thesis proposes a novel method for machine dubbing that learns speech prosody embeddings, which are disentangled from language, speaker, and channel noise and can be transferred across languages and speakers to generate clean machine dubs. Moreover, the research demonstrates that modelling and transferring prosody at a prosodic phrase level, instead of a whole utterance level, significantly improves machine dubbing quality. In summary, by intertwining variational inference with deep learning, this thesis not only enhances model performance and interpretability but also pushes the boundaries of fields such as Bayesian neural networks and neural speech synthesis. This research provides novel insights and methods that pave the way for future developments in these areas.
dc.abstract.pl	Ta praca doktorska bada przecięcie uczenia głębokiego i wnioskowania wariacyjnego, dwóch znaczących obszarów w dziedzinie uczenia maszynowego i statystyki. Choć modele uczenia głębokiego wykazały wyjątkową wydajność w różnych aplikacjach, ich ograniczenia w kwantyfikacji niepewności i probabilistycznych prognozach stanowią znaczne wyzwania. Aby je pokonać, niniejsze badania wykorzystują zasady wnioskowania bayesowskiego, aby wyposażyć modele uczenia głębokiego w niezawodność, interpretowalność i rozumowanie probabilistyczne. Jednak bezpośrednie zastosowanie wnioskowania bayesowskiego w skomplikowanych modelach, takich jak sieci uczenia głębokiego, jest niemożliwe do przeprowadzenia z powodu problemów obliczeniowych i skalowalności. Aby to rozwiązać, praca korzysta z wnioskowania wariacyjnego jako techniki aproksymacyjnej. Konkretnie, w pracy badamy zastosowania wnioskowania wariacyjnego do bayesowskich sieci neuronowych i syntezy mowy przy użyciu sieci neuronowych. W kontekście bayesowskich sieci neuronowych (BNNs), wnioskowanie wariacyjne jest stosowane do wag sieci. Badania prezentowane w tej pracy znacznie rozszerzają nasze zrozumienie i wykorzystanie BNNs. Odkryto, że powszechnie używana forma wnioskowania wariacyjnego w BNNs wykazuje strukturę niskiego rzędu. Odkrycie to pozwala na redukcję liczby parametrów i prowadzi do przyspieszenia uczenia modelu. Ponadto, badanie prezentuje intrygujące stwierdzenie, że BNNs odbiegające od teoretycznie optymalnego wnioskowania Bayesa wykazują lepszą wydajność. Szereg hipotez jest systematycznie badanych, aby wyjaśnić to zaobserwowane zachowanie. W dziedzinie syntezy mowy, wnioskowanie wariacyjne jest stosowane do nauki rozłącznych, interpretowalnych i kontrolowalnych reprezentacji danych za pomocą Auto-Enkoderów Wariacyjnych (VAEs). Praca proponuje nową metodę dubbingu maszynowego, która uczy się zanurzeń prozodii mowy, które są rozłączone od języka, mówcy i szumów kanału, dzięki czemu mogą być przeniesione między językami i mówcami, aby generować czyste dubbingi maszynowe. Ponadto, badanie pokazuje, że modelowanie i transfer prozodii na poziomie frazy prozodycznej, zamiast na poziomie całej wypowiedzi, znacznie poprawia jakość dubbingu maszynowego. Podsumowując, poprzez połączenie wnioskowania wariacyjnego z uczeniem głębokim, ta praca nie tylko zwiększa wydajność i interpretowalność modeli, ale także przesuwa granice możliwego w dziedzinach takich jak bayesowskie sieci neuronowe i neuralna synteza mowy. Badanie dostarcza nowych spostrzeżeń i metod, które torują drogę dla przyszłych rozwojów w tych obszarach.
dc.affiliation	Uniwersytet Warszawski
dc.affiliation.department	Wydział Matematyki, Informatyki i Mechaniki
dc.contributor.author	Świątkowski, Jakub
dc.date.accessioned	2024-05-13T06:35:33Z
dc.date.available	2024-05-13T06:35:33Z
dc.date.defence	2024-06-12
dc.date.issued	2024-05-13
dc.date.submitted	2023-09-13
dc.description.accesstime	before_publication
dc.description.promoter	Cygan, Marek
dc.description.reviewer	Chorowski, Jan
dc.description.reviewer	Tabor, Jacek
dc.description.reviewer	Trzciński, Tomasz
dc.description.version	final_author
dc.identifier.uri	https://repozytorium.uw.edu.pl//handle/item/160351
dc.language	en
dc.language.other	pl
dc.rights	ClosedAccess
dc.subject.en	Variational inference
dc.subject.en	approximation methods
dc.subject.en	Bayesian neural networks
dc.subject.en	latent variables
dc.subject.en	representation learning
dc.subject.en	deep learning
dc.subject.en	deep neural embeddings
dc.subject.en	generative models
dc.subject.en	speech synthesis
dc.subject.en	machine dubbing
dc.subject.en	prosody transfer
dc.subject.en	multi-lingual speech synthesis
dc.subject.pl	Inferencja wariacyjna
dc.subject.pl	metody aproksymacji
dc.subject.pl	bayesowskie sieci neuronowe
dc.subject.pl	zmienne ukryte
dc.subject.pl	uczenie reprezentacji
dc.subject.pl	głębokie sieci neuronowe
dc.subject.pl	zanurzenia w głębokich sieciach neurownowych
dc.subject.pl	modele generatywne
dc.subject.pl	synteza mowy
dc.subject.pl	dubbing maszynowy
dc.subject.pl	transfer prozodii mowy
dc.subject.pl	wielo-językowość syntezy mowy
dc.title	Variational inference applications in deep learning
dc.title.alternative	Zastosowanie wnioskowania wariacyjnego w głębokich sieciach neuronowych
dc.type	DoctoralThesis
dspace.entity.type	Publication

Licencja

Variational inference applications in deep learning

Opcje