Variational inference applications in deep learning

Świątkowski, Jakub

Praca doktorska

Pliki

0000-DR-375986-praca.pdf12.85 MB

JSwiatkowski_rec_TTrzcinski.pdf1.65 MB

JSwiatkowski_rec_JTabor.pdf2.06 MB

JSwiatkowski_opinia_MCygan.pdf51.04 KB

JSwiatkowski_rec_JChorowski.pdf873.33 KB

Licencja

Dostęp zamknięty

Variational inference applications in deep learning

Autor

Świątkowski, Jakub

Promotor

Cygan, Marek

Data publikacji

2024-05-13

Abstrakt (PL)

Ta praca doktorska bada przecięcie uczenia głębokiego i wnioskowania wariacyjnego, dwóch znaczących obszarów w dziedzinie uczenia maszynowego i statystyki. Choć modele uczenia głębokiego wykazały wyjątkową wydajność w różnych aplikacjach, ich ograniczenia w kwantyfikacji niepewności i probabilistycznych prognozach stanowią znaczne wyzwania. Aby je pokonać, niniejsze badania wykorzystują zasady wnioskowania bayesowskiego, aby wyposażyć modele uczenia głębokiego w niezawodność, interpretowalność i rozumowanie probabilistyczne. Jednak bezpośrednie zastosowanie wnioskowania bayesowskiego w skomplikowanych modelach, takich jak sieci uczenia głębokiego, jest niemożliwe do przeprowadzenia z powodu problemów obliczeniowych i skalowalności. Aby to rozwiązać, praca korzysta z wnioskowania wariacyjnego jako techniki aproksymacyjnej. Konkretnie, w pracy badamy zastosowania wnioskowania wariacyjnego do bayesowskich sieci neuronowych i syntezy mowy przy użyciu sieci neuronowych. W kontekście bayesowskich sieci neuronowych (BNNs), wnioskowanie wariacyjne jest stosowane do wag sieci. Badania prezentowane w tej pracy znacznie rozszerzają nasze zrozumienie i wykorzystanie BNNs. Odkryto, że powszechnie używana forma wnioskowania wariacyjnego w BNNs wykazuje strukturę niskiego rzędu. Odkrycie to pozwala na redukcję liczby parametrów i prowadzi do przyspieszenia uczenia modelu. Ponadto, badanie prezentuje intrygujące stwierdzenie, że BNNs odbiegające od teoretycznie optymalnego wnioskowania Bayesa wykazują lepszą wydajność. Szereg hipotez jest systematycznie badanych, aby wyjaśnić to zaobserwowane zachowanie. W dziedzinie syntezy mowy, wnioskowanie wariacyjne jest stosowane do nauki rozłącznych, interpretowalnych i kontrolowalnych reprezentacji danych za pomocą Auto-Enkoderów Wariacyjnych (VAEs). Praca proponuje nową metodę dubbingu maszynowego, która uczy się zanurzeń prozodii mowy, które są rozłączone od języka, mówcy i szumów kanału, dzięki czemu mogą być przeniesione między językami i mówcami, aby generować czyste dubbingi maszynowe. Ponadto, badanie pokazuje, że modelowanie i transfer prozodii na poziomie frazy prozodycznej, zamiast na poziomie całej wypowiedzi, znacznie poprawia jakość dubbingu maszynowego. Podsumowując, poprzez połączenie wnioskowania wariacyjnego z uczeniem głębokim, ta praca nie tylko zwiększa wydajność i interpretowalność modeli, ale także przesuwa granice możliwego w dziedzinach takich jak bayesowskie sieci neuronowe i neuralna synteza mowy. Badanie dostarcza nowych spostrzeżeń i metod, które torują drogę dla przyszłych rozwojów w tych obszarach.

Abstrakt (EN)

This PhD thesis explores the intersection of deep learning and variational inference, two significant areas in machine learning and statistics. While deep learning models have demonstrated exceptional performance across a range of applications, their inherent limitations in uncertainty quantification and probabilistic predictions present significant challenges. To overcome these challenges, this research leverages the principles of Bayesian inference to imbue deep learning models with robustness, interpretability, and probabilistic reasoning. However, direct application of Bayesian inference in complex models such as deep learning networks is intractable due to computational and scalability issues. To address this, the thesis employs variational inference as an approximation technique. This work specifically explores the application of variational inference to Bayesian neural networks and neural speech synthesis. In the context of Bayesian neural networks (BNNs), variational inference is applied to the weights of the network. The research presented in this thesis significantly enhances our understanding and utilization of BNNs. It uncovers that a commonly used form of variational inference in BNNs exhibits a low-rank structure. This discovery allows for a reduction in the number of parameters and leads to accelerated model training. Additionally, the research presents an intriguing finding that BNNs deviating from the theoretically optimal Bayes inference show improved performance. A series of hypotheses are systematically examined to explain this observed behaviour. In the domain of speech synthesis, variational inference is applied to learning disentangled, interpretable, and controllable latent representations of data using Variational Auto-Encoders (VAEs). The thesis proposes a novel method for machine dubbing that learns speech prosody embeddings, which are disentangled from language, speaker, and channel noise and can be transferred across languages and speakers to generate clean machine dubs. Moreover, the research demonstrates that modelling and transferring prosody at a prosodic phrase level, instead of a whole utterance level, significantly improves machine dubbing quality. In summary, by intertwining variational inference with deep learning, this thesis not only enhances model performance and interpretability but also pushes the boundaries of fields such as Bayesian neural networks and neural speech synthesis. This research provides novel insights and methods that pave the way for future developments in these areas.

Słowa kluczowe PL

Inferencja wariacyjna

metody aproksymacji

bayesowskie sieci neuronowe

zmienne ukryte

uczenie reprezentacji

głębokie sieci neuronowe

zanurzenia w głębokich sieciach neurownowych

modele generatywne

synteza mowy

dubbing maszynowy

transfer prozodii mowy

wielo-językowość syntezy mowy

Inny tytuł

Zastosowanie wnioskowania wariacyjnego w głębokich sieciach neuronowych

Data obrony

2024-06-12

Licencja otwartego dostępu

Dostęp zamknięty

Licencja

Variational inference applications in deep learning

Opcje

Abstrakt (PL)

Abstrakt (EN)