Praca licencjacka
Brak miniatury
Licencja
What drives language interpretation? Experiments with language models
dc.abstract.en | Language comprehension is an interdisciplinary matter that is studied in many aspects. One of the subtopics of language understanding is QSD (Quantifier Scope Disambiguation). When two or more interacting quantifiers occur in a sentence, it can be ambiguous. A quantifier can take a wide or narrow scope. Thus a sentence can have surface or inverted reading. Every language user chooses the preferred scope of quantifier and understands the construction based on these scopes. For instance, the sentence Every kid climbed a tree(1) has two interpretations. Obviously, the number of all possible readings depends on the number of interacting quantifiers. In the case of this sentence (1) there are exactly two. Two readings can be described in the following way. The first one is called surface reading. It assumes that each kid climbed a possibly different tree. The universal quantifier Every takes a wide scope and the existential a takes a narrow scope. The second reading is called inverted. Oppositely to the previous interpretation, this one assumes that every kid climbed the same tree. It means that the universal quantifier Every takes a narrow scope and the existential a takes a wide scope.To be precise, the surface reading is equivalent to FOL translation where ∀ occurs before ∃. While the inverted reading is the other way around. Choosing a preferred scope is a complex process. NLP researchers, theoretical linguists, and psycholinguists described factors that have an influence on choosing scope, often called ‘scope predictors’. There is a distinction in literature between syntactic/ lexical scope predictors and pragmatic/ world knowledge [10] [9] [11] [14] [24] [1] [28] [32]. Recent works focus more on describing the relation between objects and the pragmatics that stand behind scope resolution. [4] [32] [29] [12] [22]. Even though QSD was a linguistic matter at first, there are many studies dedicated to designing systems exclusively for QSD task [31] [24] [32] [22].Recent models incorporate world knowledge into mechanisms that resolve scopes. Since Large Language Models (LLMs) like GPT-4 [27] are increasingly popular in both industry and academia, their linguistic capabilities have been extensively examined. Some studies have compared their performance in Quantifier Scope Disambiguation (QSD) with that of humans. Kamath et al. [19] conducted prompting experiments with models like Llama and GPT-3.5, where LLMs were given ambiguous sentences containing exactly two quantifiers. These models achieved remarkably high accuracy, scoring 98%. The main goal of the present study was to demonstrate that LLMs need to possess world knowledge to correctly choose scope readings. In our prompting experiment, we aimed to minimize the influence of non-pragmatic factors on scope prediction. Unlike Kamath’s dataset, this new dataset was unified in terms of quantifier order and lexical form of the quantifier. For the experiment, 507 sentences were prepared. The results from the experiment were significantly lower than those obtained by Kamath, with nearly 90% accuracy for sentences with a preferred ‘inverse’ reading and only 58% for those with a preferred ‘surface’ reading. |
dc.abstract.pl | Rozumienie języka jest zagadnieniem interdyscyplinarnym, które jest badane w wielu aspektach. Jednym z zagadnień w rozumienia języka jest QSD (Quantifier Scope Disambiguation). Jeśli w zdaniu występują dwa lub więcej kwantyfikatorów, może być ono niejednoznaczne. Kwantyfikator może mieć szeroki lub wąski zasięg. W ten sposób zdanie może mieć odczytywanie powierzchniowe lub odwrócone. Każdy użytkownik języka wybiera preferowany zasięg kwantyfikatora i rozumie zdanie na podstawie tych zasięgów. Na przykład zdanie „Każde dziecko wspięło się na drzewo” (1) ma dwie interpretacje. Oczywiście liczba wszystkich możliwych odczytań zależy od liczby oddziałujących kwantyfikatorów. W przypadku zdania (1) są dokładnie dwa odczytania, można je opisać w następujący sposób. Pierwsze z nich nazywane jest odczytaniem powierzchniowym. Zakłada ono, że każde dziecko wspięło się na możliwie inne drzewo. Uniwersalny kwantyfikator „Every” ma szeroki zakres, a egzystencjalny „a” przyjmuje wąski zakres. Drugie odczytanie nazywane jest odwróconym. W przeciwieństwie do poprzedniej interpretacji, ta zakłada, że każde dziecko wspięło się na to samo drzewo. Oznacza to, że kwantyfikator uniwersalny „Every” przyjmuje wąski zasięg, a egzystencjalny „a” przyjmuje szeroki zakres.Precyzując , interpretacja powierzchniowa jest równoważna tłumaczeniu na logikę I rzędu, w której ∀ występuje przed ∃. Odczytanie odwrócone jest odwrotne. Wybór zasięgu jest złożonym procesem. Badacze NLP, lingwiści teoretyczni opisali czynniki, które mają wpływ na wybór zasięgu kwantyfikatorów, często nazywane są „predyktorami zasięgu”. W literaturze istnieje rozróżnienie między syntaktycznymi / leksykalnymi predyktorami zakresu a wiedzą o świecie/pragmatyczną[10] [9] [11] [14] [24] [1] [28] [32]. Najnowsze prace koncentrują się bardziej na opisywaniu relacji między obiektami i na pragmatyce, która stoi za wyborem interpretacji. [4] [32] [29] [12] [22]. Chociaż QSD było początkowo kwestią lingwistyczną, istnieje wiele badań poświęconych projektowaniu systemów wyłącznie do zadań QSD [31] [24] [32] [22]. Najnowsze modele uwzględniają wiedzę o świecie w algorytmach, które wybierają oczytania niejednoznacznych zdań. Ponieważ duże modele językowe (LLM), takie jak GPT-4 [27], stają się coraz bardziej popularne zarówno w przemyśle, jak i w środowisku akademickim, ich możliwości lingwistyczne zostały już szeroko zbadane. Niektóre badania porównały ich wyniki w ujednoznacznianiu zakresów kwantyfikatorów (QSD) z wydajnością ludzi. Kamath et al. [19] przeprowadzili eksperymenty z modelami takimi jak Llama i GPT-3.5, w których LLM otrzymywały niejednoznaczne zdania zawierające dokładnie dwa kwantyfikatory. Modele te osiągnęły niezwykle wysoką dokładność, uzyskując wynik 98%. Głównym celem niniejszego badania było pokazanie, że LLM muszą posiadać wiedzę o świecie, aby poprawnie wybierać odczyty zakresu. W naszym eksperymencie staraliśmy się zminimalizować wpływ czynników innych niż pragmatyczne w wyborze zasięgu. W przeciwieństwie do zbioru danych Kamatha, nasz zbiór danych był ujednolicony pod względem kolejności kwantyfikatora i formy leksykalnej kwantyfikatora. W eksperymencie użyto 507 zdań. Wyniki były znacznie niższe niż te uzyskane przez Kamatha, z prawie 90% poprawnością dla zdań z preferowanym czytaniem „odwróconym” i tylko 58% dla tych z preferowanym czytaniem „powierzchniowym”. |
dc.affiliation | Uniwersytet Warszawski |
dc.affiliation.department | Wydział Filozofii |
dc.contributor.author | Krajewski, Michał |
dc.date.accessioned | 2025-01-09T12:44:50Z |
dc.date.available | 2025-01-09T12:44:50Z |
dc.date.defence | 2024-07-30 |
dc.date.issued | 2024 |
dc.date.submitted | 2024-07-24 |
dc.description.promoter | Grudzińska-Zawadowska, Justyna |
dc.description.reviewer | Wojdyga, Grzegorz |
dc.description.reviewer | Grudzińska-Zawadowska, Justyna |
dc.identifier.apd | 235346 |
dc.identifier.uri | https://repozytorium.uw.edu.pl//handle/item/162847 |
dc.language | en |
dc.language.other | pl |
dc.publisher | Uniwersytet Warszawski |
dc.rights | ClosedAccess |
dc.subject.en | QSD |
dc.subject.en | Formal Semantics |
dc.subject.en | Natural Language Processing |
dc.subject.en | Large Language Models |
dc.subject.pl | QSD |
dc.subject.pl | semantyka formalna |
dc.subject.pl | przetwarzanie języka naturalnego |
dc.subject.pl | duże modele językowe |
dc.title | What drives language interpretation? Experiments with language models |
dc.title.alternative | Co napędza interpretację języka? Eksperymenty z modelami językowymi |
dc.type | BachelorThesis |
dspace.entity.type | Publication |