Probing LLM World Knowledge with Quantifier Scope Disambiguation: The Role of Ontologies
Probing LLM World Knowledge with Quantifier Scope Disambiguation: The Role of Ontologies
Abstrakt (PL)
Duże modele językowe (LLM) wykazują wysoką skuteczność w wielu zadaniach językowych, jednak zakres, w jakim korzystają one z wiedzy o świecie, a nie jedynie z wzorców statystycznych, pozostaje kwestią otwartą. Użytecznym narzędziem do badania dostępu do wiedzy o świecie jest zadanie rozstrzygania zasięgu kwantyfikatora (Quantifier Scope Disambiguation, QSD). QSD zachodzi, gdy zdania zawierające więcej niż jeden kwantyfikator dopuszczają wiele interpretacji o odmiennych warunkach prawdziwościowych. Tego typu zdania są przez ludzi interpretowane przy użyciu różnych heurystyk, jednak ostateczna interpretacja często zależy od wiedzy o świecie.
Celem niniejszej pracy jest zbadanie, czy dostarczenie dodatkowej wiedzy o świecie poprawia skuteczność dużych modeli językowych z różnych rodzin i o różnym poziomie zaawansowania w zadaniu QSD. Przebadano modele LLM z rodzin OpenAI oraz Qwen, reprezentujące trzy poziomy zaawansowania, z wykorzystaniem zbioru 440 anglojęzycznych zdań, obejmującego cztery kombinacje kolejności kwantyfikatorów oraz poprawnych interpretacji. Wszystkie modele testowano w warunku bazowym, bez dostępu do dodatkowej wiedzy o świecie, oraz w wariancie z użyciem mechanizmu Retrieval Augmented Generation (RAG), wykorzystującego wiedzę z ontologii KBpedia. Mechanizm RAG wyszukuje istotne dla zdania definicje i relacje ontologiczne, a następnie syntetyzuje je w spójny fragment kontekstu przekazywany modelom na etapie wnioskowania.
Wszystkie badane modele osiągają wysoką skuteczność w warunku bazowym, na poziomie około 85%, co wskazuje na istotny zasób wiedzy parametrycznej związanej z zadaniem QSD. Dostarczenie dodatkowego kontekstu opartego na wiedzy o świecie nie prowadzi jednak do systematycznej poprawy wyników. Mniejsze modele osiągają niewielką poprawę w niektórych konfiguracjach, natomiast większe i bardziej zaawansowane modele często wykazują spadek skuteczności w warunku RAG. Wpływ dodatkowego kontekstu różni się znacząco w zależności od kombinacji kwantyfikatorów. Analiza błędów wskazuje, że wiedza o świecie dostarczana przez mechanizm RAG często zmienia sposób interpretacji zdań poprzez przesunięcie kontekstu z lokalnego, w którym zdanie byłoby zwykle wypowiedziane, na globalny, zgodny z dostarczoną wiedzą encyklopedyczną.
Uzyskane wyniki sugerują wysoki stopień nasycenia wiedzą we współczesnych dużych modelach językowych oraz potencjalny konflikt pomiędzy sposobem dostarczania wiedzy o świecie a skutecznością modeli w zadaniu rozstrzygania zasięgu kwantyfikatora.
Abstrakt (EN)
Large Language Models (LLMs) have shown strong performance in many linguistic tasks, but the extent to which they rely on actual world knowledge rather than surface-level statistical patterns remains an open question. A useful probe for world knowledge access is the Quantifier Scope Disambiguation (QSD) task. QSD is a phenomenon where sentences containing more than one quantifier allow for multiple interpretations with different truth conditions. Human disambiguation of such sentences relies on various heuristics, but often finally depends on world knowledge.
This study explores whether additional world knowledge helps LLMs of various capability tiers and families solve the QSD task correctly. Contemporary LLMs from the OpenAI and Qwen families across three capability tiers are evaluated on a balanced dataset of 440 English sentences, containing four combinations of quantifier order and correct reading types. Each model is tested under two conditions: a baseline setting without any external context, and a Retrieval Augmented Generation (RAG) setting in which world knowledge is extracted from the KBpedia ontology. The RAG pipeline retrieves relevant definitions and relations and synthesizes them into a coherent contextual passage provided to the model during inference.
Results show that all models achieve a high baseline accuracy of around 85%, indicating substantial parametric knowledge relevant to QSD. Providing additional world knowledge context does not consistently improve performance. Smaller models achieve small improvements in some configurations, but larger and more capable models often show performance degradation under RAG. The effect of added context varies substantially across the combinations. Error analysis shows that the additional world knowledge often reframes the ambiguous sentences in a way that changes their perceived meaning from local (in which the sentence would usually be said) to global (which is more aligned with the retrieved encyclopedic knowledge), misleading the models.
These findings suggest a high knowledge saturation of contemporary LLMs and a potential interference between how world knowledge is provided and LLM performance in the QSD task.
Badanie wiedzy o świecie dużych modeli językowych w zadaniu rozstrzygania zasięgu kwantyfikatora: rola ontologii