Deep learning for planning and reinforcement learning

Autor
Czechowski, Konrad
Promotor
Miłoś, Piotr
Data publikacji
2024-08-26
Abstrakt (PL)

W ciągu ostatniej dekady postępy w rozwoju głębokich sieci neuronowych zrewolucjoni zowały wiele dziedzin, w tym przetwarzanie języka naturalnego, translację mowy na tekst i wizję komputerową. W tych aplikacjach sieci neuronowe zademonstrowały umiejętność przybliżania skomplikowanych funkcji bazując na dużych zbiorach danych treningowych. Pomimo tych imponujących wyników, obecne algorytmy głębokiego uczenia wciąż nie dorównują inteligencji wykazywanej przez ludzi. Wśród ich ograniczeń zawiera się silne po leganie na ogromnych ilościach danych uczących, oraz ograniczona zdolność do głębokiego rozumowania. W pracach wchodzących w skład tej rozprawy zbadaliśmy metody algorytmiczne ma jące na celu zlikwidowanie tych limitacji. Aby ułatwić efektywne uczenie sieci neuronowych na bazie ogranicznych danych z rzeczywistego świata, wykorzystaliśmy podejście opierające się na tworzeniu modeli środowiska (model-based reinforcement learning - MBRL). W tej dziedzinie stworzyliśmy pierwszy algorytm uzyskujący kompetetywne wyniki na słynnym benchmarku Atari 2600. Pokazaliśmy, że ograniczenia związane z uczeniem i planowaniem przy użyciu symulowanych modeli środowiska, można złagodzić poprzez starannie zaprojek towane architektury sieci neuronowych i strategie traningowe. Nasza praca stała się szeroko cytowanym dowodem na potencjał algorytmów z dziedziny MBRL, inspirując kolejne po stępy i innowacje na wielu benchmarkach. Aby zaadresować ograniczenia w zdolności do rozumowania, zbadaliśmy integrację sieci neuronowych z algorytmami planowania. Naszym głównym wkładem w tę dziedzinę jest opracowanie nowych metod planowania hierarchicznego, opartego o generację celów pośred nich (Subgoal Search). Głównym komponentem naszych metod jest generator celów po średnich - architektura neuronowa, która dla danej konfiguracji problemu zwraca zestaw celów pośrednich — konfiguracji, które są zarówno osiągalne, jak i bliższe od rozwiązania. Opracowane przez nas podejście do treningu i inferencji generatora pozwala na generacje zróżnicowanych zbiorów celów pośrednich, które w praktyce często zawierają co najmniej jeden cel wysokiej jakości, prowadzący do rozwiązania. Pokazaliśmy, że takie generatory można połączyć z klasycznymi metodami planowania (Monte-Carlo Tree Search i best-first search) aby umożliwić hierarchiczne rozwiązywanie problemów. Zaproponowaliśmy i zewalu owaliśmy szereg praktycznych algorytmów opartych na powyższych obserwacjach, dowodząc że użycie generatora celów pośrednich umożliwia znaczącą poprawę wyników w kombinato rycznie złożonych domenach.

Abstrakt (EN)

Over the last decade, advances in deep learning (DL) have revolutionized several fields, including machine natural language processing, speech-to-text conversion, and computer vision. In these applications, neural networks have been shown to play the role of powerful function approximators, distilling complex knowledge from large datasets. Despite these impressive results, current deep learning algorithms still fall short of the intelligence displayed by humans. Two main limitations are their heavy reliance on vast amounts of data and their restricted capability for deep reasoning. In this thesis, we investigated algorithmic methods to bridge these gaps. To facilitate ef ficient learning from limited real-world experiences, we adopted an approach that integrates modeling of the agent’s environment, leveraging the model-based reinforcement learning (MBRL) framework. Moreover, we pioneered the first successful application of MBRL to the challenging Atari 2600 benchmark. We demonstrated that challenges associated with learning and planning using simulated models of the environment can be mitigated through meticulously designed neural network architectures and training strategies. Our work served as a widely cited proof of concept in the MBRL field, inspiring subsequent advancements and innovations across multiple reinforcement learning benchmarks. To address the reasoning limitations of Deep Learning systems, we investigated the inte gration of planning mechanisms. Our main contributions in this field are the development of a novel hierarchical planning algorithm, Subgoal Search, and its extension, Adaptive Sub goal Search. At the heart of our methods lies a subgoal generator—a neural architecture that, for a given problem configuration, returns a set of subgoals—configurations that are both reachable and closer to the solution. We demonstrated that the autoregressive gener ation framework based on neural architectures can be harnessed to produce a diverse set of subgoals, often containing at least one high-quality subgoal. Furthermore, we showed that such a subgoal generator can be combined with classical search methods (such as Monte Carlo Tree Search and best-first search) to perform high-level planning. We introduced and assessed various practical algorithm designs based on this discovery, illustrating that the sub goal search facilitates remarkable improvement over DL-powered planning methods (such as the renowned planning algorithm of Alpha-Zero) in combinatorially complex domains.

Słowa kluczowe PL
sieci neuronowe
uczenie ze wzmocnieniem
planowanie
Inny tytuł
Algorytmy planowania i uczenia ze wzmocnieniem oparte o głębokie sieci neuronowe
Data obrony
2024-09-13
Licencja otwartego dostępu
Dostęp zamknięty