Praca magisterska
Ładowanie...
Miniatura
Licencja

ClosedAccessDostęp zamknięty

Orientation Understanding in Multimodal Models

Autor
Kęsik Cezary
Data publikacji
Abstrakt (PL)

Precyzyjne przetwarzanie wzrokowe i rozumowanie stanowią u ludzi fundament efektywnego funkcjonowania w środowisku. Doświadczenia, oparte na ucieleśnionym poznaniu i przetwarzaniu w czasie rzeczywistym oraz łączące informacje wzrokowo-przestrzenne, sensomotoryczne i społeczne, pozwalają nam wchodzić w interakcje z innymi, oceniać relacje przestrzenne oraz wykonywać zaawansowane transformacje umysłowe. Te zaawansowane zdolności rozumowania są celem, do którego dążą współczesne modele sztucznej inteligencji, szczególnie w kontekście rozwoju licznych zastosowań, takich jak roboty humanoidalne. Obecne tempo rozwoju wymaga dokładniejszego zbadania możliwości rozumowania modeli multimodalnych, aby uwidocznić ich aktualne ograniczenia i wskazać przyszłe kierunki badań.

Celem niniejszej pracy jest przestawienie tła teoretycznego rozwoju wizji komputerowej oraz ocena działania modeli multimodalnych w zadaniach wymagających rozumowania przestrzennego, jak i porównanie tych zdolności z ludzkim rozumowaniem przestrzennym. Praca ta skupia się na predykcjach modeli w zadaniach dotyczących orientacji jako relacji pomiędzy obiektami. Opierając się na ostatnich badaniach dotyczących oceny modeli, przygotowane zostały zestawy kontrastujące, które zawierają parafrazy oraz prawdziwe i nieprawdziwe relacje przestrzenne, aby zbadać spójność i skuteczność wybranych modeli multimodalnych. Przeprowadzone procedury wykazały, że nowe generacje modeli są bardziej spójne i skuteczne. Ponadto, podział według zgodności adnotatorów i uwzględnienie podziału na symetryczne i asymetryczne relacje wykazało, że niejednoznaczność oraz niedostateczna reprezentacja konceptów przestrzennych mogą prowadzić do gorszych wyników modeli. Porównanie z ludzkimi umiejętnościami rozumowania przestrzennego wskazuje na utrzymujące się braki w ich zdolnościach, które muszą być rozwiązane w przyszłości.

Abstrakt (EN)

In humans, fine-grained visual processing and reasoning are the cornerstones for efficient interaction with the environment. Experience grounded in embodiment and real-time processing that fuses visuospatial, sensorimotor and social information allows us to interact with others, judge spatial relationships of objects, and perform advanced mental transformations. Advanced reasoning capabilities of this kind are goals toward which modern AI models strive, as numerous applications, such as humanoid robots, are being developed. Current rate of development calls for more thorough examination of reasoning capabilities of multimodal models to highlight their current limitations and indicate future directions.

This study’s aim is to provide a theoretical background for the development of computer vision and evaluate how current multimodal models perform on tasks involving spatial reasoning, as well as compare that with human spatial reasoning. This work focuses on model predictions in tasks involving orientation as a relationship between objects. Following recent research in model evaluation, selected models were tested on their consistency and robustness with the use of contrast sets containing paraphrases, as well as true and false relationships. Conducted procedures have led to the conclusion that newer generations of models become more consistent and robust. Additionally, agreement stratification and consideration of symmetrical and asymmetrical relationships showed that ambiguity and underrepresented spatial concepts might also lead to worse model performance. Comparison with human spatial reasoning capabilities shows a persisting gap in their abilities, which needs to be addressed in the future.

Inny tytuł

Zrozumienie orientacji w modelach multimodalnych

Wydawca
Uniwersytet Warszawski
Data obrony
2026-01-23
Licencja otwartego dostępu
Dostęp zamknięty