Praca doktorska
Ładowanie...
Miniatura
Licencja

FairUseKorzystanie z tego materiału możliwe jest zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa. Korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.
 

Efficient Methods for Machine Learning in Sequential Decision Making

Uproszczony widok
dc.abstract.enW niniejszej pracy badane są efektywne i wydajne rozwiązania dla problemów sekwencyjnego podejmowania decyzji - klasy problemów, w których agent wchodzi w interakcję ze środowiskiem, wykonując serię akcji, w celu osiągnięcia określonego celu. Jednym z głównych wyzwań w tej dziedzinie jest koszt związany ze zbieraniem danych, który jest często przeszkodą w szerszym zastosowaniu metod opartych o uczenie maszynowe. Podejmując to wyzwanie, niniejsza praca bada trzy strategie mające na celu zmniejszenie kosztów uzyskania danych: zwiększanie efektywności wykorzystania danych przez algorytmy, użycie tańszych źródeł danych oraz posłużenie się wiedzą zakodowaną w wytrenowanych modelach uczenia maszynowego. W poszukiwaniu zwiększania efektywności wykorzystania danych, zastosowano uczenie ze wzmocnieniem oparte o model. Zaproponowany algorytm, SimPLe, jest pierwszym skutecznym zastosowaniem tej klasy metod do gier Atari. Ustanowił on najwyższe wyniki pod względem efektywności wykorzystania danych i wywołał większe zainteresowanie ewaluacją algorytmów w reżimie małej ilości danych. Druga prezentowana strategia, korzystanie z tańszych źródeł danych, została wykorzystana w kontekście samochodów autonomicznych. Pokazana została możliwość użycia danych z symulatora do wytrenowania polityki mogącej prowadzić samochód w świecie rzeczywistym. Zbadana została też możliwość wykorzystania uczenia przez imitację, które potrzebuje wyłącznie statycznego zbioru danych, bez potrzeby kosztownego i ryzykownego uruchamiania własnej polityki. Wychodząc od modułu planującego opartego o uczenie maszynowe o nazwie ChauffeurNet, zaproponowano cztery usprawnienia w zakresie jakości danych, treningu modelu, walidacji i uruchamiania w świecie rzeczywistym. Na koniec, zaprezentowano możliwość wykorzystania w robotyce wiedzy zawartej w wytrenowanych modelach, takich jak duże modele językowe. Zaproponowana metoda o nazwie LM-Nav wyróżnia się zdolnością do wykonywania w świecie rzeczywistym instrukcji w języku naturalnym. Nie potrzebuje w tym celu trenować ani dopasowywać wykorzystywanych modeli. Podsumowując, niniejsza rozprawa prezentuje nowatorskie i skuteczne metody rozwiązywania problemów sekwencyjnego podejmowania decyzji. Mam nadzieję, że przyczyni się do szerszego wykorzystania uczenia maszynowego w tej klasie problemów w świecie rzeczywistym.
dc.abstract.enThis dissertation explores efficient and cost-effective solutions for sequential decision-making problems -- a class of problems where an agent continuously interacts with an environment, making a series of actions, with the aim to accomplish a certain objective. One of the fundamental challenges in this area is the significant expense associated with gathering data, often hindering the broader adoption of methods based on machine learning. In response, this thesis explores three overarching strategies to mitigate these costs: enhancing the sample efficiency of algorithms, utilizing more affordable data sources, and leveraging knowledge already encoded in pre-trained machine learning models. In the quest for improved sample efficiency, the focus is on model-based reinforcement learning. The proposed SimPLe algorithm is the first successful application of these methods to Atari games. It established state-of-the-art results in sample efficiency and sparked interest in evaluating algorithms in the low-data regime. The second presented strategy, of utilizing more affordable data sources, is explored in the context of autonomous driving. The possibility of using simulated data for training a driving policy suitable for real-world deployment is demonstrated. Furthermore, the potential of imitation learning is explored, which relies solely on offline data, promoting a less expensive and safer data acquisition approach. From a starting point of a machine learning-based planner akin to ChauffeurNet, four distinct enhancements to data collection, model training, validation, and deployment are proposed. Finally, the potential of capitalizing on the knowledge embedded in pre-trained models, such as large language models, is unveiled in the context of robotics. The method, dubbed LM-Nav (Large Model Navigation), stands out for its ability to follow natural language instructions in real-world environments, all without the need for supplementary training or fine-tuning. This demonstrates a unique approach to utilize pre-existing models to manage complex tasks efficiently. Collectively, this dissertation presents novel and effective approaches for sequential decision-making problems, paving the way for the broader adoption of machine learning methods for this class of problems in the real world.
dc.affiliation.departmentWydział Matematyki, Informatyki i Mechaniki
dc.contributor.authorOsiński, Błażej
dc.date.accessioned2023-11-29T15:12:07Z
dc.date.available2023-11-29T15:12:07Z
dc.date.defence2023-12-07
dc.date.issued2023-11-29
dc.description.promoterMiłoś, Piotr
dc.identifier.urihttps://repozytorium.uw.edu.pl//handle/item/4799
dc.language.isoen
dc.rightsFairUse
dc.subject.enSequential decision making
dc.subject.enReinforcement learning
dc.subject.enLearning paradigms
dc.subject.enComputing methodologies → Machine learning
dc.subject.enautonomiczne samochody
dc.subject.enmodele podstawowe
dc.subject.enuczenie przez imitację
dc.subject.entransfer symulator-rzeczywistość
dc.subject.enuczenie w oparciu o model
dc.subject.enuczenie ze wzmocnienie
dc.titleEfficient Methods for Machine Learning in Sequential Decision Making
dc.title.alternativeWydajne metody uczenia maszynowego dla problemów sekwencyjnego podejmowania decyzji
dc.typeDoctoralThesis
dspace.entity.typePublication