Deep Neural Architectures for Algorithms and Sequential Data

Kurach, Karol

Praca doktorska

Pliki

0000-DR-INF-97516.pdf11.52 MB

summary.pdf1.09 MB

Licencja

Korzystanie z tego materiału możliwe jest zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa. Korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.

Deep Neural Architectures for Algorithms and Sequential Data

dc.abstract.en	The first part of the dissertation describes two deep neural architectures with external memories: Neural Random-Access Machine (NRAM) and Hierarchical Attentive Memory (HAM). The NRAM architecture is inspired by Neural Turing Machines, but the crucial difference is that it can manipulate and dereference pointers to its random-access memory. This allows it to learn concepts that require pointers chasing, such as “linked list” or “binary tree”. The HAM architecture is based on a binary tree with leaves corresponding to memory cells. This enables the memory access in Θ(log n), which is a significant improvement over Θ(n) access used in the standard attention mechanism. We show that Long Short-Term Memory (LSTM) augmented with HAM can successfully learn to solve a number of challenging algorithmic problems. In particular, it is the first architecture that learns from pure input/output examples to sort n numbers in time Θ(n log n) and the solution generalizes well to longer sequences. We also show that HAM is very generic and can be trained to act like classic data structures: a stack, a FIFO queue and a priority queue.The second part of the dissertation describes three novel systems based on deep neural networks. The first one is a framework for finding computationally efficient versions of symbolic math expressions. By using a recursive neural network it can efficiently search the state space and quickly find identities with significantly better time complexity (e.g., Θ(n^2) instead of exponential time). Then, we present a system for predicting dangerous events from multivariate, non-stationary time series data based on recurrent neural networks. It requires almost no feature engineering and achieved very good results in two machine learning competitions. Finally, we describe Smart Reply– an end-to-end system for suggesting automatic responses to e-mails. The system is capable of handling hundreds of millions messages daily. Smart Reply was successfully deployed in Google Inbox and currently generates 10% of responses on mobile devices.
dc.abstract.pl	Pierwsza część pracy przedstawia dwie głębokie architektury neuronowe wykorzystujące pamięć zewnętrzną: Neural Random-Access Machine (NRAM) oraz Hierarchical Attentive Memory (HAM). Pomysł na architekturę NRAM jest inspirowany Neuronowymi Maszynami Turinga (NTM). NRAM, w przeciwieństwie do NTM, posiada mechanizmy umożliwiające wykorzystanie wskaźników do pamięci. To sprawia, że NRAM jest w stanie nauczyć się pojęć wymagających użycia wskaźników, takich jak „lista jednokierunkowa” albo „drzewo binarne”. Architektura HAM bazuje na pełnym drzewie binarnym, w którym liście odpowiadają elementom pamięci. Umożliwia to wykonywanie operacji na pamięci w czasie Θ(log n), co jest znaczącą poprawą względem dostępu w czasie Θ(n), standardowo używanym w implementacji mechanizmu „skupienia uwagi” (ang. attention) w sieciach rekurencyjnych. Pokazujemy, że sieć LSTM połączona z HAM jest w stanie rozwiązać wymagające zadania o charakterze algorytmicznym. W szczególności, jest to pierwsza architektura, która mając dane jedynie pary wejście/poprawne wyjście potrafi się nauczyć sortowania elementów działającego w złożoności Θ(n log n) i dobrze generalizującego się do dłuższych ciągów. Pokazujemy również, że HAM jest ogólną architekturą, która może zostać wytrenowana aby działała jak standardowe struktury danych, takie jak stos, kolejka lub kolejka priorytetowa. Druga część pracy przedstawia trzy nowatorskie systemy bazujące na głębokich sieciach neuronowych. Pierwszy z nich to system do znajdowania wydajnych obliczeniowo formuł matematycznych. Przy wykorzystaniu sieci rekursywnej system jest w stanie efektywnie przeszukiwać przestrzeń stanów i szybko znajdować tożsame formułyo istotnie lepszej złożoności asymptotycznej (przykładowo, Θ(n^2) zamiast złożoności wykładniczej). Następnie, prezentujemy oparty na rekurencyjnej sieci neuronowej system do przewidywania niebezpiecznych zdarzeń z wielowymiarowych, niestacjonarnych szeregów czasowych. Nasza metoda osiągnęła bardzo dobre wyniki w dwóch konkursach uczenia maszynowego. Jako ostatni opisany został Smart Reply – system do sugerowania automatycznych odpowiedzi na e-maile. Smart Reply został zaimplementowany w Google Inbox i codziennie przetwarza setki milionów wiadomości. Aktualnie, 10% wiadomości wysłanych z urządzeń mobilnych jest generowana przez ten system.
dc.affiliation.department	Wydział Matematyki, Informatyki i Mechaniki
dc.contributor.author	Kurach, Karol
dc.date.accessioned	2016-12-21T00:06:07Z
dc.date.available	2016-12-21T00:06:07Z
dc.date.defence	2016-12-22
dc.date.issued	2016-06-13
dc.description.additional	Link archiwalny https://depotuw.ceon.pl/handle/item/1860
dc.description.osid	97516
dc.description.promoter	Nguyen, Hung Son
dc.identifier.apd	13935
dc.identifier.uri	https://repozytorium.uw.edu.pl//handle/item/1860
dc.language.iso	en
dc.rights	FairUse
dc.subject.en	Neural Networks
dc.subject.en	Recurrent Neural Networks
dc.subject.en	Attention Mechanism
dc.subject.en	LSTM
dc.subject.pl	sieci neuronowe
dc.subject.pl	rekurencyjne sieci neuronowe
dc.subject.pl	mechanizm skupienia uwagi
dc.subject.pl	LSTM
dc.title	Deep Neural Architectures for Algorithms and Sequential Data
dc.title.alternative	Głębokie architektury neuronowe dla algorytmów i danych sekwencyjnych
dc.type	DoctoralThesis
dspace.entity.type	Publication

Licencja

Deep Neural Architectures for Algorithms and Sequential Data

Opcje