Licencja
Visual and language reasoning in deep learning models
Visual and language reasoning in deep learning models
Abstrakt (PL)
Niniejsza dysertacja bada podstawowe ograniczenia rozumowania w modelach głębokiego uczenia w różnych dziedzinach, koncentrując się na wizualnym odpowiadaniu na pytania, generowaniu kodu i rozwiązywaniu problemów geometrycznych jako reprezentatywnych multimodalnych wyzwaniach rozumowania, które obejmują różne modalności poznawcze, jednocześnie ujawniając wspólne wzorce kruchości. Pomimo niezwykłych osiągnięć w testach porównawczych, modele te często wykazują znaczące słabości rozumowania i kruche zrozumienie, gdy są poddawane ukierunkowanym manipulacjom. Badamy, jak systematycznie oceniać i zwiększać możliwości rozumowania w zaawansowanych systemach sztucznej inteligencji, wykorzystując kompleksowe ramy, które wychwytują pojawiające się zachowania wynikające z interakcji złożonych komponentów, a nie poszczególnych części. Początkowy segment ocenia wizualne modele rozumowania poprzez semantyczne manipulacje przeciwnika, ujawniając znaczące słabości generalizacji w rzekomo solidnych systemach. Nasza metodologia czarnej skrzynki, niewymagająca dostępu do wewnętrznego modelu, ma uniwersalne zastosowanie w systemach otwartych i zastrzeżonych. W przeciwieństwie do tradycyjnych podejść skoncentrowanych na bezpieczeństwie na poziomie pikseli nasze semantyczne perturbacje pokazują, jak subtelne rekonfiguracje sceny mogą wywołać dramatyczne spadki wydajności w rzeczywistych scenariuszach. Kolejna sekcja analizuje uprzedzenia nieodłącznie związane z systemami generującymi kody. Stosując ukierunkowane ramy, które zakłócają istotne elementy opisów problemów i przykładów, ujawniamy nadmierną zależność modeli od powierzchownych wskaźników zamiast autentycznego zrozumienia problemu. Nasze badania ilustrują, w jaki sposób uprzedzenia te wpływają na jakość generowanego kodu i sugerują przeciwstawne metody dostrajania w celu złagodzenia tych kwestii, zwiększając niezawodność modelu w różnych zadaniach kodowania. W końcowej części omówiono braki w rozumowaniu geometrycznym w dużych modelach językowych. Chociaż LLM wyróżniają się w obszarach algebraicznych i tekstowych, ich powiązania przestrzenne i trudności z konstruktywną geometrią ujawniają znaczące ograniczenia. Przedstawiamy system wieloagentowy, który wykorzystuje wspólne rozwiązywanie problemów w celu poprawy rozumowania geometrycznego, demonstrując skuteczność specjalizacji agenta i iteracyjnego sprzężenia zwrotnego w rozwiązywaniu tych problemów. W tych różnorodnych dziedzinach zapewniamy dogłębne badanie niedociągnięć w modelach głębokiego uczenia się i proponujemy praktyczne strategie zwiększające ich interpretowalność i odporność. Nasze rozwiązania przewyższają pojedyncze kryteria, pomagając w osiągnięciu nadrzędnego celu, jakim jest stworzenie systemów sztucznej inteligencji, które mogą osiągnąć niezawodne i zniuansowane podejmowanie decyzji w wielu dziedzinach.
Abstrakt (EN)
This dissertation examines fundamental reasoning limitations in deep learning models across diverse domains, focusing on visual question answering, code generation, and geometric problem-solving as representative multimodal reasoning challenges that span different cognitive modalities while revealing common patterns of brittleness. Despite remarkable achievements on benchmarks, these models often exhibit significant reasoning weaknesses and fragile understanding when subjected to targeted manipulations. We investigate how to systematically evaluate and enhance reasoning capabilities in advanced AI systems, employing comprehensive frameworks that capture emergent behaviors arising from the interaction of complex components rather than individual parts. The initial segment evaluates visual reasoning models through semantic adversarial manipulations, revealing significant generalization weaknesses in purportedly robust systems. Our black-box methodology, requiring no internal model access, is universally applicable across open and proprietary systems. Unlike traditional pixel-level security-focused approaches, our semantic perturbations demonstrate how subtle scene reconfigurations can precipitate dramatic performance collapses in real-world scenarios. The subsequent section analyzes biases intrinsic to code-generating systems. By employing a focused framework that disrupts essential components of problem descriptions and examples, we expose models’ excessive dependence on superficial indicators instead of authentic problem understanding. Our research illustrates how these biases impair the quality of generated code and suggests adversarial fine-tuning methods to alleviate these issues, enhancing model dependability across various coding tasks. The concluding section tackles the deficiency in geometric reasoning inside large language models. Although LLMs excel in algebraic and textual areas, their spatial linkages and difficulties with constructive geometry reveal significant limitations. We present a multi-agent system that utilizes collaborative problem-solving to improve geometric reasoning, demonstrating the efficacy of agent specialization and iterative feedback in addressing these issues. Across these diverse domains, we provide a thorough examination of the reasoning deficiencies in deep learning models and propose practical strategies to enhance their interpretability and resilience. Our solutions surpass isolated criteria, aiding the overarching objective of creating AI systems that may achieve more dependable and nuanced decision-making across several domains.
Rozumowanie wizualne i językowe w modelach głębokiego uczenia się