Efficient Methods for Machine Learning in Sequential Decision Making

Osiński, Błażej

Praca doktorska

Pliki

Rozprawa doktorska B. Osiński.pdf13.25 MB

Licencja

Korzystanie z tego materiału możliwe jest zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa. Korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.

Efficient Methods for Machine Learning in Sequential Decision Making

dc.abstract.en	W niniejszej pracy badane są efektywne i wydajne rozwiązania dla problemów sekwencyjnego podejmowania decyzji - klasy problemów, w których agent wchodzi w interakcję ze środowiskiem, wykonując serię akcji, w celu osiągnięcia określonego celu. Jednym z głównych wyzwań w tej dziedzinie jest koszt związany ze zbieraniem danych, który jest często przeszkodą w szerszym zastosowaniu metod opartych o uczenie maszynowe. Podejmując to wyzwanie, niniejsza praca bada trzy strategie mające na celu zmniejszenie kosztów uzyskania danych: zwiększanie efektywności wykorzystania danych przez algorytmy, użycie tańszych źródeł danych oraz posłużenie się wiedzą zakodowaną w wytrenowanych modelach uczenia maszynowego. W poszukiwaniu zwiększania efektywności wykorzystania danych, zastosowano uczenie ze wzmocnieniem oparte o model. Zaproponowany algorytm, SimPLe, jest pierwszym skutecznym zastosowaniem tej klasy metod do gier Atari. Ustanowił on najwyższe wyniki pod względem efektywności wykorzystania danych i wywołał większe zainteresowanie ewaluacją algorytmów w reżimie małej ilości danych. Druga prezentowana strategia, korzystanie z tańszych źródeł danych, została wykorzystana w kontekście samochodów autonomicznych. Pokazana została możliwość użycia danych z symulatora do wytrenowania polityki mogącej prowadzić samochód w świecie rzeczywistym. Zbadana została też możliwość wykorzystania uczenia przez imitację, które potrzebuje wyłącznie statycznego zbioru danych, bez potrzeby kosztownego i ryzykownego uruchamiania własnej polityki. Wychodząc od modułu planującego opartego o uczenie maszynowe o nazwie ChauffeurNet, zaproponowano cztery usprawnienia w zakresie jakości danych, treningu modelu, walidacji i uruchamiania w świecie rzeczywistym. Na koniec, zaprezentowano możliwość wykorzystania w robotyce wiedzy zawartej w wytrenowanych modelach, takich jak duże modele językowe. Zaproponowana metoda o nazwie LM-Nav wyróżnia się zdolnością do wykonywania w świecie rzeczywistym instrukcji w języku naturalnym. Nie potrzebuje w tym celu trenować ani dopasowywać wykorzystywanych modeli. Podsumowując, niniejsza rozprawa prezentuje nowatorskie i skuteczne metody rozwiązywania problemów sekwencyjnego podejmowania decyzji. Mam nadzieję, że przyczyni się do szerszego wykorzystania uczenia maszynowego w tej klasie problemów w świecie rzeczywistym.
dc.abstract.en	This dissertation explores efficient and cost-effective solutions for sequential decision-making problems -- a class of problems where an agent continuously interacts with an environment, making a series of actions, with the aim to accomplish a certain objective. One of the fundamental challenges in this area is the significant expense associated with gathering data, often hindering the broader adoption of methods based on machine learning. In response, this thesis explores three overarching strategies to mitigate these costs: enhancing the sample efficiency of algorithms, utilizing more affordable data sources, and leveraging knowledge already encoded in pre-trained machine learning models. In the quest for improved sample efficiency, the focus is on model-based reinforcement learning. The proposed SimPLe algorithm is the first successful application of these methods to Atari games. It established state-of-the-art results in sample efficiency and sparked interest in evaluating algorithms in the low-data regime. The second presented strategy, of utilizing more affordable data sources, is explored in the context of autonomous driving. The possibility of using simulated data for training a driving policy suitable for real-world deployment is demonstrated. Furthermore, the potential of imitation learning is explored, which relies solely on offline data, promoting a less expensive and safer data acquisition approach. From a starting point of a machine learning-based planner akin to ChauffeurNet, four distinct enhancements to data collection, model training, validation, and deployment are proposed. Finally, the potential of capitalizing on the knowledge embedded in pre-trained models, such as large language models, is unveiled in the context of robotics. The method, dubbed LM-Nav (Large Model Navigation), stands out for its ability to follow natural language instructions in real-world environments, all without the need for supplementary training or fine-tuning. This demonstrates a unique approach to utilize pre-existing models to manage complex tasks efficiently. Collectively, this dissertation presents novel and effective approaches for sequential decision-making problems, paving the way for the broader adoption of machine learning methods for this class of problems in the real world.
dc.affiliation.department	Wydział Matematyki, Informatyki i Mechaniki
dc.contributor.author	Osiński, Błażej
dc.date.accessioned	2023-11-29T15:12:07Z
dc.date.available	2023-11-29T15:12:07Z
dc.date.defence	2023-12-07
dc.date.issued	2023-11-29
dc.description.promoter	Miłoś, Piotr
dc.identifier.uri	https://repozytorium.uw.edu.pl//handle/item/4799
dc.language.iso	en
dc.rights	FairUse
dc.subject.en	Sequential decision making
dc.subject.en	Reinforcement learning
dc.subject.en	Learning paradigms
dc.subject.en	Computing methodologies → Machine learning
dc.subject.en	autonomiczne samochody
dc.subject.en	modele podstawowe
dc.subject.en	uczenie przez imitację
dc.subject.en	transfer symulator-rzeczywistość
dc.subject.en	uczenie w oparciu o model
dc.subject.en	uczenie ze wzmocnienie
dc.title	Efficient Methods for Machine Learning in Sequential Decision Making
dc.title.alternative	Wydajne metody uczenia maszynowego dla problemów sekwencyjnego podejmowania decyzji
dc.type	DoctoralThesis
dspace.entity.type	Publication

Licencja

Efficient Methods for Machine Learning in Sequential Decision Making

Opcje