Licencja
Efficient Methods for Machine Learning in Sequential Decision Making
Abstrakt (EN)
W niniejszej pracy badane są efektywne i wydajne rozwiązania dla problemów sekwencyjnego podejmowania decyzji - klasy problemów, w których agent wchodzi w interakcję ze środowiskiem, wykonując serię akcji, w celu osiągnięcia określonego celu. Jednym z głównych wyzwań w tej dziedzinie jest koszt związany ze zbieraniem danych, który jest często przeszkodą w szerszym zastosowaniu metod opartych o uczenie maszynowe. Podejmując to wyzwanie, niniejsza praca bada trzy strategie mające na celu zmniejszenie kosztów uzyskania danych: zwiększanie efektywności wykorzystania danych przez algorytmy, użycie tańszych źródeł danych oraz posłużenie się wiedzą zakodowaną w wytrenowanych modelach uczenia maszynowego. W poszukiwaniu zwiększania efektywności wykorzystania danych, zastosowano uczenie ze wzmocnieniem oparte o model. Zaproponowany algorytm, SimPLe, jest pierwszym skutecznym zastosowaniem tej klasy metod do gier Atari. Ustanowił on najwyższe wyniki pod względem efektywności wykorzystania danych i wywołał większe zainteresowanie ewaluacją algorytmów w reżimie małej ilości danych. Druga prezentowana strategia, korzystanie z tańszych źródeł danych, została wykorzystana w kontekście samochodów autonomicznych. Pokazana została możliwość użycia danych z symulatora do wytrenowania polityki mogącej prowadzić samochód w świecie rzeczywistym. Zbadana została też możliwość wykorzystania uczenia przez imitację, które potrzebuje wyłącznie statycznego zbioru danych, bez potrzeby kosztownego i ryzykownego uruchamiania własnej polityki. Wychodząc od modułu planującego opartego o uczenie maszynowe o nazwie ChauffeurNet, zaproponowano cztery usprawnienia w zakresie jakości danych, treningu modelu, walidacji i uruchamiania w świecie rzeczywistym. Na koniec, zaprezentowano możliwość wykorzystania w robotyce wiedzy zawartej w wytrenowanych modelach, takich jak duże modele językowe. Zaproponowana metoda o nazwie LM-Nav wyróżnia się zdolnością do wykonywania w świecie rzeczywistym instrukcji w języku naturalnym. Nie potrzebuje w tym celu trenować ani dopasowywać wykorzystywanych modeli. Podsumowując, niniejsza rozprawa prezentuje nowatorskie i skuteczne metody rozwiązywania problemów sekwencyjnego podejmowania decyzji. Mam nadzieję, że przyczyni się do szerszego wykorzystania uczenia maszynowego w tej klasie problemów w świecie rzeczywistym.