Praca doktorska
Ładowanie...
Licencja
Efficient Methods for Machine Learning in Sequential Decision Making
dc.abstract.en | W niniejszej pracy badane są efektywne i wydajne rozwiązania dla problemów sekwencyjnego podejmowania decyzji - klasy problemów, w których agent wchodzi w interakcję ze środowiskiem, wykonując serię akcji, w celu osiągnięcia określonego celu. Jednym z głównych wyzwań w tej dziedzinie jest koszt związany ze zbieraniem danych, który jest często przeszkodą w szerszym zastosowaniu metod opartych o uczenie maszynowe. Podejmując to wyzwanie, niniejsza praca bada trzy strategie mające na celu zmniejszenie kosztów uzyskania danych: zwiększanie efektywności wykorzystania danych przez algorytmy, użycie tańszych źródeł danych oraz posłużenie się wiedzą zakodowaną w wytrenowanych modelach uczenia maszynowego. W poszukiwaniu zwiększania efektywności wykorzystania danych, zastosowano uczenie ze wzmocnieniem oparte o model. Zaproponowany algorytm, SimPLe, jest pierwszym skutecznym zastosowaniem tej klasy metod do gier Atari. Ustanowił on najwyższe wyniki pod względem efektywności wykorzystania danych i wywołał większe zainteresowanie ewaluacją algorytmów w reżimie małej ilości danych. Druga prezentowana strategia, korzystanie z tańszych źródeł danych, została wykorzystana w kontekście samochodów autonomicznych. Pokazana została możliwość użycia danych z symulatora do wytrenowania polityki mogącej prowadzić samochód w świecie rzeczywistym. Zbadana została też możliwość wykorzystania uczenia przez imitację, które potrzebuje wyłącznie statycznego zbioru danych, bez potrzeby kosztownego i ryzykownego uruchamiania własnej polityki. Wychodząc od modułu planującego opartego o uczenie maszynowe o nazwie ChauffeurNet, zaproponowano cztery usprawnienia w zakresie jakości danych, treningu modelu, walidacji i uruchamiania w świecie rzeczywistym. Na koniec, zaprezentowano możliwość wykorzystania w robotyce wiedzy zawartej w wytrenowanych modelach, takich jak duże modele językowe. Zaproponowana metoda o nazwie LM-Nav wyróżnia się zdolnością do wykonywania w świecie rzeczywistym instrukcji w języku naturalnym. Nie potrzebuje w tym celu trenować ani dopasowywać wykorzystywanych modeli. Podsumowując, niniejsza rozprawa prezentuje nowatorskie i skuteczne metody rozwiązywania problemów sekwencyjnego podejmowania decyzji. Mam nadzieję, że przyczyni się do szerszego wykorzystania uczenia maszynowego w tej klasie problemów w świecie rzeczywistym. |
dc.abstract.en | This dissertation explores efficient and cost-effective solutions for sequential decision-making problems -- a class of problems where an agent continuously interacts with an environment, making a series of actions, with the aim to accomplish a certain objective. One of the fundamental challenges in this area is the significant expense associated with gathering data, often hindering the broader adoption of methods based on machine learning. In response, this thesis explores three overarching strategies to mitigate these costs: enhancing the sample efficiency of algorithms, utilizing more affordable data sources, and leveraging knowledge already encoded in pre-trained machine learning models. In the quest for improved sample efficiency, the focus is on model-based reinforcement learning. The proposed SimPLe algorithm is the first successful application of these methods to Atari games. It established state-of-the-art results in sample efficiency and sparked interest in evaluating algorithms in the low-data regime. The second presented strategy, of utilizing more affordable data sources, is explored in the context of autonomous driving. The possibility of using simulated data for training a driving policy suitable for real-world deployment is demonstrated. Furthermore, the potential of imitation learning is explored, which relies solely on offline data, promoting a less expensive and safer data acquisition approach. From a starting point of a machine learning-based planner akin to ChauffeurNet, four distinct enhancements to data collection, model training, validation, and deployment are proposed. Finally, the potential of capitalizing on the knowledge embedded in pre-trained models, such as large language models, is unveiled in the context of robotics. The method, dubbed LM-Nav (Large Model Navigation), stands out for its ability to follow natural language instructions in real-world environments, all without the need for supplementary training or fine-tuning. This demonstrates a unique approach to utilize pre-existing models to manage complex tasks efficiently. Collectively, this dissertation presents novel and effective approaches for sequential decision-making problems, paving the way for the broader adoption of machine learning methods for this class of problems in the real world. |
dc.affiliation.department | Wydział Matematyki, Informatyki i Mechaniki |
dc.contributor.author | Osiński, Błażej |
dc.date.accessioned | 2023-11-29T15:12:07Z |
dc.date.available | 2023-11-29T15:12:07Z |
dc.date.defence | 2023-12-07 |
dc.date.issued | 2023-11-29 |
dc.description.promoter | Miłoś, Piotr |
dc.identifier.uri | https://repozytorium.uw.edu.pl//handle/item/4799 |
dc.language.iso | en |
dc.rights | FairUse |
dc.subject.en | Sequential decision making |
dc.subject.en | Reinforcement learning |
dc.subject.en | Learning paradigms |
dc.subject.en | Computing methodologies → Machine learning |
dc.subject.en | autonomiczne samochody |
dc.subject.en | modele podstawowe |
dc.subject.en | uczenie przez imitację |
dc.subject.en | transfer symulator-rzeczywistość |
dc.subject.en | uczenie w oparciu o model |
dc.subject.en | uczenie ze wzmocnienie |
dc.title | Efficient Methods for Machine Learning in Sequential Decision Making |
dc.title.alternative | Wydajne metody uczenia maszynowego dla problemów sekwencyjnego podejmowania decyzji |
dc.type | DoctoralThesis |
dspace.entity.type | Publication |