Praca licencjacka
Brak miniatury
Licencja

ClosedAccessDostęp zamknięty

The Role of Lexical and Syntactic Features in Quantifier Scope Disambiguation. A Corpus Study Based on the National Corpus of Polish

Autor
Wolski, Mateusz
Promotor
Wojdyga, Grzegorz
Grudzińska-Zawadowska, Justyna
Data publikacji
2023
Abstrakt (PL)

Rozstrzyganie zasięgów kwantyfikatorów (Quantifier Scope Disambiguation) jest słabo zbadanym do tej pory zjawiskiem w obszarze NLP (natural language processing). Występuje ono w zdaniach zawierających przynajmniej dwa kwantyfikatory wchodzące ze sobą w interakcje zasięgowe. Kwantyfikatory przyjmują zasięg szeroki lub wąski, a interpretacja zdania zależy od ich układu zasięgowego. Zdanie „Każdy miał jakiś cel” zawiera dwa kwantyfikatory: uniwersalny „każdy” oraz egzystencjalny „jakiś”. Można je odczytać na dwa następujące sposoby: 1. Istniał tylko jeden konkretny cel dla każdego („jakiś” – szeroki zasięg, „każdy” – wąski zasięg) lub 2. Każdy miał dowolny (niekoniecznie ten sam) cel („każdy” – szeroki zasięg, „jakiś” – wąski zasięg). Rola gramatyczna, realizacja leksykalna oraz kolejność występowania kwantyfikatorów w zdaniu to szeroko rozpoznawane leksykalne i składniowe predyktory zasięgu (Iuop, 1975; Van Lehn, 1978; Fodor, 1982). AnderBois i in. (2012) zbadali wpływ tych cech na preferencje zasięgowe w zdaniach języka angielskiego z dwoma kwantyfikatorami. Za pomocą modelu regresji logistycznej ustalili, że rola gramatyczna (podmiot lub dopełnienie), kolejność występowania (pierwszy lub drugi) oraz realizacja leksykalna kwantyfikatora („every”, „some”, „two” itd.) mają istotny wpływ na zasięg kwantyfikatora. Dotychczas wszystkie badania nad QSD przeprowadzono na korpusach anglojęzycznych. Jak jednak twierdzą Sayeed i in. (2019) oraz Iuop (1975), kolejność występowania kwantyfikatorów może mieć mniejszy wpływ na QSD w językach o luźniejszym szyku niż język angielski (np. polski lub niemiecki). Mając na celu zbadanie wpływu leksykalnych i składniowych cech kwantyfikatorów na przyjmowane przez nie zasięgi w języku polskim, postanowiłem sformułować następujące sprawdzalne hipotezy: 1. rola gramatyczna (podmiot, dopełnienie, przysłówek itd.) oraz realizacja leksykalna („każdy”, „jakiś”, „dwa” itd.) kwantyfikatorów będą miały znaczący wpływ na przyjmowane przez nie zasięgi w języku polskim oraz 2. kolejność występowania kwantyfikatorów będzie mniej znacząca niż rola gramatyczna i realizacja leksykalna. Na użytek badania zbudowaliśmy korpus ze zdań z Narodowego Korpusu Języka Polskiego, wzorując się na korpusie AnderBois i in. (2012). Na podstawie zaanotowanych cech kwantyfikatorów, zbudowany model regresji logistycznej rozstrzygał ich zasięgi. Do sprawdzenia postawionych hipotez wykorzystaliśmy metryki modeli oraz wyniki analizy feature importance. Dodatkowo, sprawdziliśmy jak model językowy oparty na architekturze HerBERT (Mroczkowski et al., 2021) radzi sobie z zadaniem QSD. Metryki osiągnięte przez modele regresji logistycznej oraz analiza feature importance wspierają postawione hipotezy. Kolejność występowania samodzielnie jest dobrym predyktorem zasięgu, ale pełni drugorzędną rolę, gdy jest wykorzystywana wraz z innymi cechami. W przypadku roli gramatycznej jest odwrotnie. HerBERT osiągnął najwyższą skuteczność (.93) spośród wszystkich modeli.

Abstrakt (EN)

Quantifier Scope Disambiguation (QSD) is an underexplored phenomenon in the NLP (natural language processing). It occurs in sentences containing at least two interacting quantifiers. The quantifiers take a wide or narrow scope, and the sentence reading depends on their scope configuration. The sentence „Każdy miał jakiś cel (Everyone had some purpose)” contains two quantifiers: the universal “każdy (everyone)” and the existential “jakiś (some)”. It can be read in the following two ways: 1. there was only one specific goal for everyone (“jakiś” - wide scope, “każdy” - narrow scope), or 2. everyone had any (not necessarily the same) goal (“każdy” - wide scope, “jakiś” - narrow scope). The grammatical role, lexical realisation and the linear order of quantifiers in a sentence are widely recognised lexical and syntactic scope predictors (Iuop, 1975; Van Lehn, 1978; Fodor, 1982). AnderBois et al. (2012) examined the impact of these features on scope preferences in English sentences with two quantifiers. They constructed a logistic regression model to perform a QSD task. They found that the grammatical role (subject or object), the linear order (first or second) and the lexical realisation of the quantifier (“każdy (every)”, “jakiś (some)”, “dwa (two)”, etc.) have a significant impact on the quantifier’s scope. To date, all research on QSD has been conducted on English. However, Iuop (1975) and Sayeed et al. (2019) suggested that the linear order of quantifiers may have a different impact on QSD in languages with a looser syntax than English (e.g. Polish or German). To investigate the influence of lexical and syntactic features of quantifiers on their scope preferences in Polish, we formulated the following testable hypotheses: 1. the grammatical role (subject, object, adverb, etc.) and the lexical realisation (“każdy (each)”, “wszyscy (all)”, “jakieś (some)”, “dwa (two” etc.) of quantifiers will significantly influence their scopes in Polish, and 2. in Polish, the ordering of quantifiers will be less critical than the grammatical role and lexical realisation. For the study, we constructed a corpus of sentences from the National Corpus of Polish, like AnderBois et al. (2012). Based on the annotated features of the quantifiers, the constructed logistic regression model disambiguated their scopes. To test the hypotheses, we used the models’ metrics and the results of the feature importance analysis. Additionally, we examined the performance on the QSD task of a model based on the HerBERT architecture (Mroczkowski et al., 2021). The metrics achieved by the logistic regression models and feature importance analysis support the hypotheses. Order of occurrence on its own is a good predictor of scope but plays a secondary role when used together with other features. In the case of grammatical role, the opposite is true. HerBERT achieved the highest accuracy (.93) among all other models.

Słowa kluczowe PL
semantyka formalna
inżynieria lingwistyczna
kwantyfikatory
rozstrzyganie zasięgów kwantyfikatorów
predyktory zasięgu kwantyfikatora
Narodowy Korpus Języka Polskiego
regresja logistyczna
HerBERT
Inny tytuł
Rola Cech Leksykalnych i Składniowych w Rozstrzyganiu Zasięgu Kwantyfikatorów. Badanie Korpusowe na Podstawie Narodowego Korpusu Języka Polskiego
Wydawca
Uniwersytet Warszawski
Data obrony
2023-10-25
Licencja otwartego dostępu
Dostęp zamknięty