Variational inference applications in deep learning

Uproszczony widok
dc.abstract.enThis PhD thesis explores the intersection of deep learning and variational inference, two significant areas in machine learning and statistics. While deep learning models have demonstrated exceptional performance across a range of applications, their inherent limitations in uncertainty quantification and probabilistic predictions present significant challenges. To overcome these challenges, this research leverages the principles of Bayesian inference to imbue deep learning models with robustness, interpretability, and probabilistic reasoning. However, direct application of Bayesian inference in complex models such as deep learning networks is intractable due to computational and scalability issues. To address this, the thesis employs variational inference as an approximation technique. This work specifically explores the application of variational inference to Bayesian neural networks and neural speech synthesis. In the context of Bayesian neural networks (BNNs), variational inference is applied to the weights of the network. The research presented in this thesis significantly enhances our understanding and utilization of BNNs. It uncovers that a commonly used form of variational inference in BNNs exhibits a low-rank structure. This discovery allows for a reduction in the number of parameters and leads to accelerated model training. Additionally, the research presents an intriguing finding that BNNs deviating from the theoretically optimal Bayes inference show improved performance. A series of hypotheses are systematically examined to explain this observed behaviour. In the domain of speech synthesis, variational inference is applied to learning disentangled, interpretable, and controllable latent representations of data using Variational Auto-Encoders (VAEs). The thesis proposes a novel method for machine dubbing that learns speech prosody embeddings, which are disentangled from language, speaker, and channel noise and can be transferred across languages and speakers to generate clean machine dubs. Moreover, the research demonstrates that modelling and transferring prosody at a prosodic phrase level, instead of a whole utterance level, significantly improves machine dubbing quality. In summary, by intertwining variational inference with deep learning, this thesis not only enhances model performance and interpretability but also pushes the boundaries of fields such as Bayesian neural networks and neural speech synthesis. This research provides novel insights and methods that pave the way for future developments in these areas.
dc.abstract.plTa praca doktorska bada przecięcie uczenia głębokiego i wnioskowania wariacyjnego, dwóch znaczących obszarów w dziedzinie uczenia maszynowego i statystyki. Choć modele uczenia głębokiego wykazały wyjątkową wydajność w różnych aplikacjach, ich ograniczenia w kwantyfikacji niepewności i probabilistycznych prognozach stanowią znaczne wyzwania. Aby je pokonać, niniejsze badania wykorzystują zasady wnioskowania bayesowskiego, aby wyposażyć modele uczenia głębokiego w niezawodność, interpretowalność i rozumowanie probabilistyczne. Jednak bezpośrednie zastosowanie wnioskowania bayesowskiego w skomplikowanych modelach, takich jak sieci uczenia głębokiego, jest niemożliwe do przeprowadzenia z powodu problemów obliczeniowych i skalowalności. Aby to rozwiązać, praca korzysta z wnioskowania wariacyjnego jako techniki aproksymacyjnej. Konkretnie, w pracy badamy zastosowania wnioskowania wariacyjnego do bayesowskich sieci neuronowych i syntezy mowy przy użyciu sieci neuronowych. W kontekście bayesowskich sieci neuronowych (BNNs), wnioskowanie wariacyjne jest stosowane do wag sieci. Badania prezentowane w tej pracy znacznie rozszerzają nasze zrozumienie i wykorzystanie BNNs. Odkryto, że powszechnie używana forma wnioskowania wariacyjnego w BNNs wykazuje strukturę niskiego rzędu. Odkrycie to pozwala na redukcję liczby parametrów i prowadzi do przyspieszenia uczenia modelu. Ponadto, badanie prezentuje intrygujące stwierdzenie, że BNNs odbiegające od teoretycznie optymalnego wnioskowania Bayesa wykazują lepszą wydajność. Szereg hipotez jest systematycznie badanych, aby wyjaśnić to zaobserwowane zachowanie. W dziedzinie syntezy mowy, wnioskowanie wariacyjne jest stosowane do nauki rozłącznych, interpretowalnych i kontrolowalnych reprezentacji danych za pomocą Auto-Enkoderów Wariacyjnych (VAEs). Praca proponuje nową metodę dubbingu maszynowego, która uczy się zanurzeń prozodii mowy, które są rozłączone od języka, mówcy i szumów kanału, dzięki czemu mogą być przeniesione między językami i mówcami, aby generować czyste dubbingi maszynowe. Ponadto, badanie pokazuje, że modelowanie i transfer prozodii na poziomie frazy prozodycznej, zamiast na poziomie całej wypowiedzi, znacznie poprawia jakość dubbingu maszynowego. Podsumowując, poprzez połączenie wnioskowania wariacyjnego z uczeniem głębokim, ta praca nie tylko zwiększa wydajność i interpretowalność modeli, ale także przesuwa granice możliwego w dziedzinach takich jak bayesowskie sieci neuronowe i neuralna synteza mowy. Badanie dostarcza nowych spostrzeżeń i metod, które torują drogę dla przyszłych rozwojów w tych obszarach.
dc.affiliationUniwersytet Warszawski
dc.affiliation.departmentWydział Matematyki, Informatyki i Mechaniki
dc.contributor.authorŚwiątkowski, Jakub
dc.date.accessioned2024-05-13T06:35:33Z
dc.date.available2024-05-13T06:35:33Z
dc.date.defence2024-06-12
dc.date.issued2024-05-13
dc.date.submitted2023-09-13
dc.description.accesstimebefore_publication
dc.description.promoterCygan, Marek
dc.description.reviewerChorowski, Jan
dc.description.reviewerTabor, Jacek
dc.description.reviewerTrzciński, Tomasz
dc.description.versionfinal_author
dc.identifier.urihttps://repozytorium.uw.edu.pl//handle/item/160351
dc.languageen
dc.language.otherpl
dc.rightsClosedAccess
dc.subject.enVariational inference
dc.subject.enapproximation methods
dc.subject.enBayesian neural networks
dc.subject.enlatent variables
dc.subject.enrepresentation learning
dc.subject.endeep learning
dc.subject.endeep neural embeddings
dc.subject.engenerative models
dc.subject.enspeech synthesis
dc.subject.enmachine dubbing
dc.subject.enprosody transfer
dc.subject.enmulti-lingual speech synthesis
dc.subject.plInferencja wariacyjna
dc.subject.plmetody aproksymacji
dc.subject.plbayesowskie sieci neuronowe
dc.subject.plzmienne ukryte
dc.subject.pluczenie reprezentacji
dc.subject.plgłębokie sieci neuronowe
dc.subject.plzanurzenia w głębokich sieciach neurownowych
dc.subject.plmodele generatywne
dc.subject.plsynteza mowy
dc.subject.pldubbing maszynowy
dc.subject.pltransfer prozodii mowy
dc.subject.plwielo-językowość syntezy mowy
dc.titleVariational inference applications in deep learning
dc.title.alternativeZastosowanie wnioskowania wariacyjnego w głębokich sieciach neuronowych
dc.typeDoctoralThesis
dspace.entity.typePublication