Praca doktorska
Variational inference applications in deep learning
dc.abstract.en | This PhD thesis explores the intersection of deep learning and variational inference, two significant areas in machine learning and statistics. While deep learning models have demonstrated exceptional performance across a range of applications, their inherent limitations in uncertainty quantification and probabilistic predictions present significant challenges. To overcome these challenges, this research leverages the principles of Bayesian inference to imbue deep learning models with robustness, interpretability, and probabilistic reasoning. However, direct application of Bayesian inference in complex models such as deep learning networks is intractable due to computational and scalability issues. To address this, the thesis employs variational inference as an approximation technique. This work specifically explores the application of variational inference to Bayesian neural networks and neural speech synthesis. In the context of Bayesian neural networks (BNNs), variational inference is applied to the weights of the network. The research presented in this thesis significantly enhances our understanding and utilization of BNNs. It uncovers that a commonly used form of variational inference in BNNs exhibits a low-rank structure. This discovery allows for a reduction in the number of parameters and leads to accelerated model training. Additionally, the research presents an intriguing finding that BNNs deviating from the theoretically optimal Bayes inference show improved performance. A series of hypotheses are systematically examined to explain this observed behaviour. In the domain of speech synthesis, variational inference is applied to learning disentangled, interpretable, and controllable latent representations of data using Variational Auto-Encoders (VAEs). The thesis proposes a novel method for machine dubbing that learns speech prosody embeddings, which are disentangled from language, speaker, and channel noise and can be transferred across languages and speakers to generate clean machine dubs. Moreover, the research demonstrates that modelling and transferring prosody at a prosodic phrase level, instead of a whole utterance level, significantly improves machine dubbing quality. In summary, by intertwining variational inference with deep learning, this thesis not only enhances model performance and interpretability but also pushes the boundaries of fields such as Bayesian neural networks and neural speech synthesis. This research provides novel insights and methods that pave the way for future developments in these areas. |
dc.abstract.pl | Ta praca doktorska bada przecięcie uczenia głębokiego i wnioskowania wariacyjnego, dwóch znaczących obszarów w dziedzinie uczenia maszynowego i statystyki. Choć modele uczenia głębokiego wykazały wyjątkową wydajność w różnych aplikacjach, ich ograniczenia w kwantyfikacji niepewności i probabilistycznych prognozach stanowią znaczne wyzwania. Aby je pokonać, niniejsze badania wykorzystują zasady wnioskowania bayesowskiego, aby wyposażyć modele uczenia głębokiego w niezawodność, interpretowalność i rozumowanie probabilistyczne. Jednak bezpośrednie zastosowanie wnioskowania bayesowskiego w skomplikowanych modelach, takich jak sieci uczenia głębokiego, jest niemożliwe do przeprowadzenia z powodu problemów obliczeniowych i skalowalności. Aby to rozwiązać, praca korzysta z wnioskowania wariacyjnego jako techniki aproksymacyjnej. Konkretnie, w pracy badamy zastosowania wnioskowania wariacyjnego do bayesowskich sieci neuronowych i syntezy mowy przy użyciu sieci neuronowych. W kontekście bayesowskich sieci neuronowych (BNNs), wnioskowanie wariacyjne jest stosowane do wag sieci. Badania prezentowane w tej pracy znacznie rozszerzają nasze zrozumienie i wykorzystanie BNNs. Odkryto, że powszechnie używana forma wnioskowania wariacyjnego w BNNs wykazuje strukturę niskiego rzędu. Odkrycie to pozwala na redukcję liczby parametrów i prowadzi do przyspieszenia uczenia modelu. Ponadto, badanie prezentuje intrygujące stwierdzenie, że BNNs odbiegające od teoretycznie optymalnego wnioskowania Bayesa wykazują lepszą wydajność. Szereg hipotez jest systematycznie badanych, aby wyjaśnić to zaobserwowane zachowanie. W dziedzinie syntezy mowy, wnioskowanie wariacyjne jest stosowane do nauki rozłącznych, interpretowalnych i kontrolowalnych reprezentacji danych za pomocą Auto-Enkoderów Wariacyjnych (VAEs). Praca proponuje nową metodę dubbingu maszynowego, która uczy się zanurzeń prozodii mowy, które są rozłączone od języka, mówcy i szumów kanału, dzięki czemu mogą być przeniesione między językami i mówcami, aby generować czyste dubbingi maszynowe. Ponadto, badanie pokazuje, że modelowanie i transfer prozodii na poziomie frazy prozodycznej, zamiast na poziomie całej wypowiedzi, znacznie poprawia jakość dubbingu maszynowego. Podsumowując, poprzez połączenie wnioskowania wariacyjnego z uczeniem głębokim, ta praca nie tylko zwiększa wydajność i interpretowalność modeli, ale także przesuwa granice możliwego w dziedzinach takich jak bayesowskie sieci neuronowe i neuralna synteza mowy. Badanie dostarcza nowych spostrzeżeń i metod, które torują drogę dla przyszłych rozwojów w tych obszarach. |
dc.affiliation | Uniwersytet Warszawski |
dc.affiliation.department | Wydział Matematyki, Informatyki i Mechaniki |
dc.contributor.author | Świątkowski, Jakub |
dc.date.accessioned | 2024-05-13T06:35:33Z |
dc.date.available | 2024-05-13T06:35:33Z |
dc.date.defence | 2024-06-12 |
dc.date.issued | 2024-05-13 |
dc.date.submitted | 2023-09-13 |
dc.description.accesstime | before_publication |
dc.description.promoter | Cygan, Marek |
dc.description.reviewer | Chorowski, Jan |
dc.description.reviewer | Tabor, Jacek |
dc.description.reviewer | Trzciński, Tomasz |
dc.description.version | final_author |
dc.identifier.uri | https://repozytorium.uw.edu.pl//handle/item/160351 |
dc.language | en |
dc.language.other | pl |
dc.rights | ClosedAccess |
dc.subject.en | Variational inference |
dc.subject.en | approximation methods |
dc.subject.en | Bayesian neural networks |
dc.subject.en | latent variables |
dc.subject.en | representation learning |
dc.subject.en | deep learning |
dc.subject.en | deep neural embeddings |
dc.subject.en | generative models |
dc.subject.en | speech synthesis |
dc.subject.en | machine dubbing |
dc.subject.en | prosody transfer |
dc.subject.en | multi-lingual speech synthesis |
dc.subject.pl | Inferencja wariacyjna |
dc.subject.pl | metody aproksymacji |
dc.subject.pl | bayesowskie sieci neuronowe |
dc.subject.pl | zmienne ukryte |
dc.subject.pl | uczenie reprezentacji |
dc.subject.pl | głębokie sieci neuronowe |
dc.subject.pl | zanurzenia w głębokich sieciach neurownowych |
dc.subject.pl | modele generatywne |
dc.subject.pl | synteza mowy |
dc.subject.pl | dubbing maszynowy |
dc.subject.pl | transfer prozodii mowy |
dc.subject.pl | wielo-językowość syntezy mowy |
dc.title | Variational inference applications in deep learning |
dc.title.alternative | Zastosowanie wnioskowania wariacyjnego w głębokich sieciach neuronowych |
dc.type | DoctoralThesis |
dspace.entity.type | Publication |