Solving complex decision-making problems with structured reasoning and planning

Uczenie przez wzmocnienie (Reinforcement Learning, RL) osiągnęło imponujące sukcesy w dziedzinie sztucznej inteligencji, umożliwiając przełomy w robotyce, grach komputerowych oraz podejmowaniu decyzji w rzeczywistych scenariuszach. Pomimo tych osiągnięć, RL nadal zmaga się z podstawowymi wyzwaniami, takimi jak niska efektywność treningu, ograniczona zdolność uogólniania oraz słaba interpretowalność. Tymczasem ludzie potrafią skutecznie rozwiązywać złożone problemy, rozpoznając abstrakcyjne struktury i sprawnie rozumując za ich pomocą. Zainspirowany tymi ludzkimi zdolnościami, w swojej pracy badawczej poszukuję sposobów na przezwyciężenie kluczowych ograniczeń RL poprzez odzwierciedlenie strukturalnego rozumowania i planowania. Skupiam się na poprawie uogólniania i interpretowalności wytrenowanych polityk, rozwijając modele, które w sposób jawny rozumują nad rozwiązaniami, wychodząc poza niestabilne rozpoznawanie wzorców. Projektuję także metody, które umożliwiają agentom RL operowanie na wysokopoziomowych krokach, wspierając strukturalne podejmowanie decyzji oraz efektywne rozumowanie w długim horyzoncie czasowym. Problem uogólniania polityki jest szczególnie widoczny w robotyce. Dlatego w tej dziedzinie pokazujemy, jak nauczyć roboty krytycznego myślenia i rozumowania przy użyciu podejścia Embodied Chain-of-Thought (ECoT). Polityki trenowane z ECoT nie tylko uczą się wydajniej, ale co ważniejsze – uogólniają poza rozkład danych treningowych, dostrzegając strukturę zadania w złożonych obserwacjach wizualnych. Poprzez jawne rozumowanie nad zadaniami, polityki te stają się bardziej interpretowalne i łatwiejsze do kontrolowania. Samo rozpoznanie abstrakcyjnej struktury problemu jest mało użyteczne bez skutecznych narzędzi do jej kontrolowania. Inspirując się tym, jak ludzie operują na pojęciach wysokiego poziomu, proponujemy Subgoal Search (kSubS) – nowy hierarchiczny algorytm przeszukiwania, który skutecznie rozwiązuje złożone zadania wymagające rozumowania. Zdolność człowieka do adaptacji względem złożoności danego problemu zainspirowała nas do opracowania Adaptive Subgoal Search (AdaSubS) – adaptacyjnej wersji, która dynamicznie generuje podcele w zależności od złożoności zadania. Nasza szeroko zakrojona analiza eksperymentalna i teoretyczna ukazuje unikalne zalety metod opartych na podcelach, w tym zdolność do wykorzystywania niejednoznacznego sygnału treningowego oraz odporność na dane niskiej jakości. Moje badania stanowią krok w kierunku zbliżenia naturalnej inteligencji i autonomicznych systemów uczących się, czerpiąc inspirację z ludzkiego rozumowania. W praktyce, dostarczają także najnowocześniejszych rozwiązań dla wymagających dziedzin, poszerzając zarówno podstawy teoretyczne, jak i możliwości stosowania RL.

Abstrakt (EN)

Reinforcement Learning (RL) has achieved remarkable success in Artificial Intelligence (AI), powering breakthroughs in robotics, gaming, and real-world decision-making. However, despite these advancements, RL continues to struggle with fundamental challenges such as low sample efficiency, limited generalization, and poor interpretability. In contrast, humans excel at robustly solving complex problems by recognizing abstract structures and reasoning through them efficiently. Inspired by these capabilities, my research explores ways to address the core limitations of RL by reflecting structured reasoning and planning. I focus on improving generalization and interpretability of trained policies by developing models that explicitly reason about solutions, going beyond brittle pattern recognition. Additionally, I design methods that enable RL agents to operate on high-level concepts, facilitating structured decision-making and more efficient long-horizon reasoning. The challenge of policy generalization is particularly pronounced in the field of robotics. Therefore, in that domain, we show how to teach robotic policies to think critically and reason through tasks with our Embodied Chain-of-Thought (ECoT) approach. Policies trained with ECoT not only learn more efficiently, but, more importantly, generalize beyond the training distribution by abstracting task structures from complex visual observations. By explicitly reasoning through tasks, these policies become more interpretable and easier to control. Recognizing the abstract structure of a problem is of little value without efficient tools to control it. Inspired by how humans operate on high-level concepts, we propose Subgoal Search (kSubS), a novel hierarchical search algorithm that effectively solves complex reasoning tasks. The human ability to adapt to the complexity of the problem at hand inspired us to further develop Adaptive Subgoal Search (AdaSubS) that adapts to the complexity of the problem by dynamically generating subgoals. Our extensive experimental and theoretical analysis highlights unique advantages of subgoal-based methods, including the ability to transform multimodal training signal into a learning advantage and robustness to low-quality data. My research takes a step toward bridging the gap between natural intelligence and autonomous learning systems by drawing inspiration from human-like reasoning. On the practical side, it also provides state-of-the-art solvers for challenging domains, advancing both the theoretical foundations and the applicability of RL.

Słowa kluczowe PL

uczenie ze wzmocnieniem

uczenie przez naśladowanie

hierarchiczne przeszukiwanie

robotyka

planowanie

chain-of-thought

wyjaśnialne uczenie maszynowe

Inny tytuł

Rozwiązywanie złożonych problemów decyzyjnych poprzez strukturalne rozumowanie i planowanie