How LLMs handle Quantifier Scope Disambiguation: examining World Knowledge in standard and KG-enhanced models

Kosterna, Jakub

Praca licencjacka

Licencja

Dostęp zamknięty

Statystyki

How LLMs handle Quantifier Scope Disambiguation: examining World Knowledge in standard and KG-enhanced models

Autor

Kosterna Jakub

Promotor

Grudzińska-Zawadowska Justyna

Data publikacji

2025

Abstrakt (PL)

Duże modele językowe (LLM) często mają trudności ze zrozumieniem zdań, w których znaczenie zależy od zasięgu kwantyfikatorów, takich jak każdy i jakiś. Zamiast korzystać z głębszej wiedzy o świecie, modele te zwykle opierają się na prostych wzorcach lub wskazówkach wynikających z powierzchniowej struktury zdania. Niniejsza praca bada, czy dodanie zewnętrznych źródeł wiedzy może pomóc LLM w podejmowaniu trafniejszych decyzji w zadaniu rozstrzygania zasięgu kwantyfikatorów (Quantifier Scope Disambiguation, QSD) w języku angielskim.

Przygotowano zrównoważony zbiór danych zawierający 440 zdań (pochodzących z pierwotnych 880 par), obejmujący cztery kombinacje kwantyfikatorów. Dane zostały ręcznie zweryfikowane pod kątem jednoznaczności odczytania powierzchniowego (surface reading) i odwróconego (inverse reading). Oceniono trzy konfiguracje modeli w ramach stratyfikowanej 5-krotnej walidacji krzyżowej: (1) bazowy model RoBERTa-base po dostrojeniu, (2) ERNIE 2.0 wzbogacony o statyczną wiedzę z grafu wiedzy oraz (3) RoBERTa połączony z dynamicznym mechanizmem Retriever-Augmented Generation (RAG), wyszukującym fragmenty z indeksu opartego na ConceptNet i Simple Wikipedia.

Średnia dokładność w walidacji krzyżowej wyniosła: RoBERTa - 94.55%, ERNIE 2.0 - 95.23%, a RoBERTa z RAG - 95.68%. Ponieważ zbiór danych jest zbalansowany, dokładność jest równoważna ze średnią F1 i podawana jest jako jedyna metryka. Analiza błędów wskazuje, że statyczne osadzenia z grafu wiedzy bywają niewystarczające, gdy brakuje konkretnych relacji między pojęciami, podczas gdy mechanizm wyszukiwania fragmentów wiedzy w czasie rzeczywistym skuteczniej rozwiązuje zależności semantyczne w trudnych przypadkach. Wyniki sugerują, że połączenie modelu językowego z lekkim, dynamicznym mechanizmem pozyskiwania wiedzy może istotnie wspomóc rozstrzyganie zasięgu kwantyfikatorów i uzupełniać statyczne reprezentacje wiedzy o świecie.

Abstrakt (EN)

Large language models (LLMs) often have trouble understanding sentences where the meaning depends on the scope of quantifiers, such as every and some. Instead of using deeper knowledge about the world, they tend to rely on simple patterns or surface cues. This study explores whether adding external sources of knowledge can help LLMs make better decisions in the task of Quantifier Scope Disambiguation (QSD) in English.

A balanced dataset of 440 sentences (originally 880 paired sentences) covering four quantifier-combination patterns was constructed and manually vetted to ensure clear surface versus inverse interpretations. Three model configurations were evaluated under stratified 5-fold cross-validation: (1) a fine-tuned RoBERTa-base as a baseline, (2) ERNIE 2.0 with static knowledge-graph enrichment, and (3) RoBERTa augmented with dynamic Retriever-Augmented Generation (RAG) retrieving top-k passages from a combined ConceptNet + Simple Wikipedia index.

On average across folds, RoBERTa achieved 94.55% accuracy, ERNIE 2.0 reached 95.23%, and RoBERTa + RAG slightly outperformed both with 95.68% accuracy. Since the dataset is balanced, accuracy is effectively equivalent to F1-score and is therefore reported alone. Error analysis indicates that static knowledge-graph embeddings sometimes fail when specific relational context is absent, whereas on-demand retrieval of world-knowledge fragments more effectively resolves semantic dependencies in challenging cases. These findings suggest that combining a pre-trained model with lightweight, on-demand knowledge retrieval can substantially benefit quantifier-scope disambiguation and complement static world-knowledge representations.

Słowa kluczowe PL

zasięg kwantyfikatorów

duże modele językowe

wiedza o świecie

grafy wiedzy

przetwarzanie języka naturalnego

semantyka formalna

kognitywistyka

Inny tytuł

Jak LLMy rozstrzygają zasięg kwantyfikatorów: badanie wiedzy o świecie w modelach standardowych i uzupełnionych o grafy wiedzy

Wydawca

Uniwersytet Warszawski