Praca licencjacka
Brak miniatury
Licencja

ClosedAccessDostęp zamknięty
 

The Role of Lexical and Syntactic Features in Quantifier Scope Disambiguation. A Corpus Study Based on the National Corpus of Polish

Uproszczony widok
dc.abstract.enQuantifier Scope Disambiguation (QSD) is an underexplored phenomenon in the NLP (natural language processing). It occurs in sentences containing at least two interacting quantifiers. The quantifiers take a wide or narrow scope, and the sentence reading depends on their scope configuration. The sentence „Każdy miał jakiś cel (Everyone had some purpose)” contains two quantifiers: the universal “każdy (everyone)” and the existential “jakiś (some)”. It can be read in the following two ways: 1. there was only one specific goal for everyone (“jakiś” - wide scope, “każdy” - narrow scope), or 2. everyone had any (not necessarily the same) goal (“każdy” - wide scope, “jakiś” - narrow scope). The grammatical role, lexical realisation and the linear order of quantifiers in a sentence are widely recognised lexical and syntactic scope predictors (Iuop, 1975; Van Lehn, 1978; Fodor, 1982). AnderBois et al. (2012) examined the impact of these features on scope preferences in English sentences with two quantifiers. They constructed a logistic regression model to perform a QSD task. They found that the grammatical role (subject or object), the linear order (first or second) and the lexical realisation of the quantifier (“każdy (every)”, “jakiś (some)”, “dwa (two)”, etc.) have a significant impact on the quantifier’s scope. To date, all research on QSD has been conducted on English. However, Iuop (1975) and Sayeed et al. (2019) suggested that the linear order of quantifiers may have a different impact on QSD in languages with a looser syntax than English (e.g. Polish or German). To investigate the influence of lexical and syntactic features of quantifiers on their scope preferences in Polish, we formulated the following testable hypotheses: 1. the grammatical role (subject, object, adverb, etc.) and the lexical realisation (“każdy (each)”, “wszyscy (all)”, “jakieś (some)”, “dwa (two” etc.) of quantifiers will significantly influence their scopes in Polish, and 2. in Polish, the ordering of quantifiers will be less critical than the grammatical role and lexical realisation. For the study, we constructed a corpus of sentences from the National Corpus of Polish, like AnderBois et al. (2012). Based on the annotated features of the quantifiers, the constructed logistic regression model disambiguated their scopes. To test the hypotheses, we used the models’ metrics and the results of the feature importance analysis. Additionally, we examined the performance on the QSD task of a model based on the HerBERT architecture (Mroczkowski et al., 2021). The metrics achieved by the logistic regression models and feature importance analysis support the hypotheses. Order of occurrence on its own is a good predictor of scope but plays a secondary role when used together with other features. In the case of grammatical role, the opposite is true. HerBERT achieved the highest accuracy (.93) among all other models.
dc.abstract.plRozstrzyganie zasięgów kwantyfikatorów (Quantifier Scope Disambiguation) jest słabo zbadanym do tej pory zjawiskiem w obszarze NLP (natural language processing). Występuje ono w zdaniach zawierających przynajmniej dwa kwantyfikatory wchodzące ze sobą w interakcje zasięgowe. Kwantyfikatory przyjmują zasięg szeroki lub wąski, a interpretacja zdania zależy od ich układu zasięgowego. Zdanie „Każdy miał jakiś cel” zawiera dwa kwantyfikatory: uniwersalny „każdy” oraz egzystencjalny „jakiś”. Można je odczytać na dwa następujące sposoby: 1. Istniał tylko jeden konkretny cel dla każdego („jakiś” – szeroki zasięg, „każdy” – wąski zasięg) lub 2. Każdy miał dowolny (niekoniecznie ten sam) cel („każdy” – szeroki zasięg, „jakiś” – wąski zasięg). Rola gramatyczna, realizacja leksykalna oraz kolejność występowania kwantyfikatorów w zdaniu to szeroko rozpoznawane leksykalne i składniowe predyktory zasięgu (Iuop, 1975; Van Lehn, 1978; Fodor, 1982). AnderBois i in. (2012) zbadali wpływ tych cech na preferencje zasięgowe w zdaniach języka angielskiego z dwoma kwantyfikatorami. Za pomocą modelu regresji logistycznej ustalili, że rola gramatyczna (podmiot lub dopełnienie), kolejność występowania (pierwszy lub drugi) oraz realizacja leksykalna kwantyfikatora („every”, „some”, „two” itd.) mają istotny wpływ na zasięg kwantyfikatora. Dotychczas wszystkie badania nad QSD przeprowadzono na korpusach anglojęzycznych. Jak jednak twierdzą Sayeed i in. (2019) oraz Iuop (1975), kolejność występowania kwantyfikatorów może mieć mniejszy wpływ na QSD w językach o luźniejszym szyku niż język angielski (np. polski lub niemiecki). Mając na celu zbadanie wpływu leksykalnych i składniowych cech kwantyfikatorów na przyjmowane przez nie zasięgi w języku polskim, postanowiłem sformułować następujące sprawdzalne hipotezy: 1. rola gramatyczna (podmiot, dopełnienie, przysłówek itd.) oraz realizacja leksykalna („każdy”, „jakiś”, „dwa” itd.) kwantyfikatorów będą miały znaczący wpływ na przyjmowane przez nie zasięgi w języku polskim oraz 2. kolejność występowania kwantyfikatorów będzie mniej znacząca niż rola gramatyczna i realizacja leksykalna. Na użytek badania zbudowaliśmy korpus ze zdań z Narodowego Korpusu Języka Polskiego, wzorując się na korpusie AnderBois i in. (2012). Na podstawie zaanotowanych cech kwantyfikatorów, zbudowany model regresji logistycznej rozstrzygał ich zasięgi. Do sprawdzenia postawionych hipotez wykorzystaliśmy metryki modeli oraz wyniki analizy feature importance. Dodatkowo, sprawdziliśmy jak model językowy oparty na architekturze HerBERT (Mroczkowski et al., 2021) radzi sobie z zadaniem QSD. Metryki osiągnięte przez modele regresji logistycznej oraz analiza feature importance wspierają postawione hipotezy. Kolejność występowania samodzielnie jest dobrym predyktorem zasięgu, ale pełni drugorzędną rolę, gdy jest wykorzystywana wraz z innymi cechami. W przypadku roli gramatycznej jest odwrotnie. HerBERT osiągnął najwyższą skuteczność (.93) spośród wszystkich modeli.
dc.affiliationUniwersytet Warszawski
dc.affiliation.departmentWydział Filozofii
dc.contributor.authorWolski, Mateusz
dc.date.accessioned2025-01-09T12:42:44Z
dc.date.available2025-01-09T12:42:44Z
dc.date.defence2023-10-25
dc.date.issued2023
dc.date.submitted2023-10-09
dc.description.promoterWojdyga, Grzegorz
dc.description.promoterGrudzińska-Zawadowska, Justyna
dc.description.reviewerWojdyga, Grzegorz
dc.description.reviewerSzymanik, Jakub
dc.description.reviewerGrudzińska-Zawadowska, Justyna
dc.identifier.apd228194
dc.identifier.urihttps://repozytorium.uw.edu.pl//handle/item/161953
dc.languageen
dc.language.otherpl
dc.publisherUniwersytet Warszawski
dc.rightsClosedAccess
dc.subject.enformal semantics
dc.subject.enlinguistic engineering
dc.subject.enquantifiers
dc.subject.enquantifier scope disambiguation
dc.subject.enquantifier scope predictors
dc.subject.enNational Corpus of Polish
dc.subject.enlogistic regression
dc.subject.enHerBERT
dc.subject.plsemantyka formalna
dc.subject.plinżynieria lingwistyczna
dc.subject.plkwantyfikatory
dc.subject.plrozstrzyganie zasięgów kwantyfikatorów
dc.subject.plpredyktory zasięgu kwantyfikatora
dc.subject.plNarodowy Korpus Języka Polskiego
dc.subject.plregresja logistyczna
dc.subject.plHerBERT
dc.titleThe Role of Lexical and Syntactic Features in Quantifier Scope Disambiguation. A Corpus Study Based on the National Corpus of Polish
dc.title.alternativeRola Cech Leksykalnych i Składniowych w Rozstrzyganiu Zasięgu Kwantyfikatorów. Badanie Korpusowe na Podstawie Narodowego Korpusu Języka Polskiego
dc.typeBachelorThesis
dspace.entity.typePublication