Praca doktorska
Ładowanie...
Miniatura
Licencja

FairUseKorzystanie z tego materiału możliwe jest zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa. Korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.
 

Deep Neural Architectures for Algorithms and Sequential Data

Uproszczony widok
dc.abstract.enThe first part of the dissertation describes two deep neural architectures with external memories: Neural Random-Access Machine (NRAM) and Hierarchical Attentive Memory (HAM). The NRAM architecture is inspired by Neural Turing Machines, but the crucial difference is that it can manipulate and dereference pointers to its random-access memory. This allows it to learn concepts that require pointers chasing, such as “linked list” or “binary tree”. The HAM architecture is based on a binary tree with leaves corresponding to memory cells. This enables the memory access in Θ(log n), which is a significant improvement over Θ(n) access used in the standard attention mechanism. We show that Long Short-Term Memory (LSTM) augmented with HAM can successfully learn to solve a number of challenging algorithmic problems. In particular, it is the first architecture that learns from pure input/output examples to sort n numbers in time Θ(n log n) and the solution generalizes well to longer sequences. We also show that HAM is very generic and can be trained to act like classic data structures: a stack, a FIFO queue and a priority queue.The second part of the dissertation describes three novel systems based on deep neural networks. The first one is a framework for finding computationally efficient versions of symbolic math expressions. By using a recursive neural network it can efficiently search the state space and quickly find identities with significantly better time complexity (e.g., Θ(n^2) instead of exponential time). Then, we present a system for predicting dangerous events from multivariate, non-stationary time series data based on recurrent neural networks. It requires almost no feature engineering and achieved very good results in two machine learning competitions. Finally, we describe Smart Reply– an end-to-end system for suggesting automatic responses to e-mails. The system is capable of handling hundreds of millions messages daily. Smart Reply was successfully deployed in Google Inbox and currently generates 10% of responses on mobile devices.
dc.abstract.plPierwsza część pracy przedstawia dwie głębokie architektury neuronowe wykorzystujące pamięć zewnętrzną: Neural Random-Access Machine (NRAM) oraz Hierarchical Attentive Memory (HAM). Pomysł na architekturę NRAM jest inspirowany Neuronowymi Maszynami Turinga (NTM). NRAM, w przeciwieństwie do NTM, posiada mechanizmy umożliwiające wykorzystanie wskaźników do pamięci. To sprawia, że NRAM jest w stanie nauczyć się pojęć wymagających użycia wskaźników, takich jak „lista jednokierunkowa” albo „drzewo binarne”. Architektura HAM bazuje na pełnym drzewie binarnym, w którym liście odpowiadają elementom pamięci. Umożliwia to wykonywanie operacji na pamięci w czasie Θ(log n), co jest znaczącą poprawą względem dostępu w czasie Θ(n), standardowo używanym w implementacji mechanizmu „skupienia uwagi” (ang. attention) w sieciach rekurencyjnych. Pokazujemy, że sieć LSTM połączona z HAM jest w stanie rozwiązać wymagające zadania o charakterze algorytmicznym. W szczególności, jest to pierwsza architektura, która mając dane jedynie pary wejście/poprawne wyjście potrafi się nauczyć sortowania elementów działającego w złożoności Θ(n log n) i dobrze generalizującego się do dłuższych ciągów. Pokazujemy również, że HAM jest ogólną architekturą, która może zostać wytrenowana aby działała jak standardowe struktury danych, takie jak stos, kolejka lub kolejka priorytetowa. Druga część pracy przedstawia trzy nowatorskie systemy bazujące na głębokich sieciach neuronowych. Pierwszy z nich to system do znajdowania wydajnych obliczeniowo formuł matematycznych. Przy wykorzystaniu sieci rekursywnej system jest w stanie efektywnie przeszukiwać przestrzeń stanów i szybko znajdować tożsame formułyo istotnie lepszej złożoności asymptotycznej (przykładowo, Θ(n^2) zamiast złożoności wykładniczej). Następnie, prezentujemy oparty na rekurencyjnej sieci neuronowej system do przewidywania niebezpiecznych zdarzeń z wielowymiarowych, niestacjonarnych szeregów czasowych. Nasza metoda osiągnęła bardzo dobre wyniki w dwóch konkursach uczenia maszynowego. Jako ostatni opisany został Smart Reply – system do sugerowania automatycznych odpowiedzi na e-maile. Smart Reply został zaimplementowany w Google Inbox i codziennie przetwarza setki milionów wiadomości. Aktualnie, 10% wiadomości wysłanych z urządzeń mobilnych jest generowana przez ten system.
dc.affiliation.departmentWydział Matematyki, Informatyki i Mechaniki
dc.contributor.authorKurach, Karol
dc.date.accessioned2016-12-21T00:06:07Z
dc.date.available2016-12-21T00:06:07Z
dc.date.defence2016-12-22
dc.date.issued2016-06-13
dc.description.additionalLink archiwalny https://depotuw.ceon.pl/handle/item/1860
dc.description.osid97516
dc.description.promoterNguyen, Hung Son
dc.identifier.apd13935
dc.identifier.urihttps://repozytorium.uw.edu.pl//handle/item/1860
dc.language.isoen
dc.rightsFairUse
dc.subject.enNeural Networks
dc.subject.enRecurrent Neural Networks
dc.subject.enAttention Mechanism
dc.subject.enLSTM
dc.subject.plsieci neuronowe
dc.subject.plrekurencyjne sieci neuronowe
dc.subject.plmechanizm skupienia uwagi
dc.subject.plLSTM
dc.titleDeep Neural Architectures for Algorithms and Sequential Data
dc.title.alternativeGłębokie architektury neuronowe dla algorytmów i danych sekwencyjnych
dc.typeDoctoralThesis
dspace.entity.typePublication