Licencja
Rola wiedzy o świecie w rozstrzyganiu zasięgu kwantyfikatorów. Badanie korpusowe na podstawie Narodowego Korpusu Języka Polskiego
Abstrakt (PL)
Praca jest poświęcona ocenie wpływu wiedzy o świecie na rozstrzyganie zasięgu kwantyfikatorów w algorytmach uczenia maszynowego w języku polskim. W opracowaniu wyjaśniono, czym jest przypisywanie zasięgu wyrażeniom kwantyfikatorowym, przedstawiając problem na przykładach i scharakteryzowano związane z tym tematem nazewnictwo. Przywołane zostały najważniejsze artykuły dotyczące tego zagadnienia oraz opisano cały przebieg badania, które przeprowadzono na skonstruowanym do tego celu korpusie. Zdania składające się na korpus pochodzą z Narodowego Korpusu Języka Polskiego (Przepiórkowski i in., 2012) i spełniają określone wymagania. Do sprawdzenia wpływu wiedzy o świecie wyodrębniono zbalansowaną pod kątem potencjalnych predyktorów próbkę. Badania oparto głównie na modelu językowym HerBERT. Na podstawie uzyskanych wyników wyciągnięto wnioski o konieczności przeprowadzenia kolejnych badań związanych z tym zagadnieniem oraz zauważono potencjał modeli językowych w podejmowaniu decyzji zasięgowych w sformułowaniach z dwoma kwantyfikatorami w języku polskim. Występujące różnice między dokładnością modelu językowego HerBERT, a dokładnością regresji logistycznej wskazują na istotność wiedzy o świecie w podejmowaniu decyzji zasięgowych przez algorytmy uczenia maszynowego.
Abstrakt (EN)
The goal of the thesis was to assess the impact of world knowledge on quantifier scope disambiguation (QSD) in machine learning algorithms in the Polish language. The thesis explains the phenomenon of quantifier scope assignment through examples, introduces related terminology, and offers a literature review on this subject. The study was performed on a scope disambiguated corpus constructed for this purpose. The sentences in the corpus were sourced from the National Corpus of the Polish Language (Przepiórkowski i in., 2012) and met specific requirements. A sample, balanced in terms of potential predictors, was extracted from the corpus to investigate the role of world knowledge in the QSD task. The study used a bidirectional language model. Drawing conclusions from the results, it was emphasized that further research is needed on this issue, and the potential of language models in leveraging world knowledge in QSD was noted. The statistically significant differences between the accuracy of the language model and the accuracy of the logistic regression indicate the impact of world knowledge in automatic QSD.