Disambiguation of Coordination Structure in Polish: A Heuristic-Based Approach
Disambiguation of Coordination Structure in Polish: A Heuristic-Based Approach
Abstrakt (PL)
Koordynacja jest cechą języka naturalnego, która pozwala rozmówcom łączyć słowa i frazy w większe, często symetryczne struktury. Jednocześnie koordynacja jest źródłem niejednoznaczności strukturalnej, szczególnie w sytuacjach, gdy modyfikator może odnosić się albo do obu składników koordynacji, albo tylko do najbliższego z nich. Choć zjawisko to było szeroko badane w języku angielskim, nie zostało systematycznie przeanalizowane dla języka polskiego.
Niniejsza praca bada metody automatycznej dezambiguacji modyfikatorów w koordynacjach w języku polskim, koncentrując się na trzech typach modyfikatorów: przymiotnikach, rzeczownikach dzierżawczych w dopełniaczu oraz zdaniach podrzędnych. Trzy heurystyki— Dopasowania Koordynacje, Podobieństwo Dystrybucyjne, Częstość Kolokacji—zaadaptowane z wcześniejszych badań Chantree et al. (2008) zostały przetestowane na zbiorze 120 zdań wybranych z Narodowego Korpusu Języka Polskiego (Lewandowska-Tomaszczyk et al., 2012). Rodzimi użytkownicy języka oceniali, z czym łączyły się modyfikatory w tych zdaniach. Odpowiedzi te które posłużyły jako punkt odniesienia dla oceny skuteczności heurystyk.
Wyniki pokazują, że heurystyki oparte na informacjach statystycznych i dystrybucyjnych są w stanie uchwycić istotne wzorce interpretacji niejednoznacznych struktur, lecz ich skuteczność ograniczają niejednoznaczność leksykalna, złożoność strukturalna oraz ograniczenia korpusu. Wyniki te wskazują zarówno na potencjał, jak i ograniczenia podejść korpusowych oraz podkreślają potrzebę stosowania modeli hybrydowych integrujących różne źródła informacji językowej i statystycznej.
Abstrakt (EN)
Coordination is a feature of natural language that allows speakers to join words and phrases into larger, often symmetrical structures. Yet, coordination is also a source of structural ambiguity, particularly when a modifier may attach either to both conjuncts or only to the nearest one. While this phenomenon has been extensively studied in English, it has not been systematically examined for Polish.
This thesis investigates methods for the automatic disambiguation of modifier attachment in Polish coordinations, focusing on three modifiers: adjectives, possessive nouns (in genitive) and relative clauses. Three heuristics—Coordination Matches, Distributional Similarity, and Collocation Frequency—–adapted from previous work of Chantree et al. (2008), were evaluated on a dataset of 120 sentences extracted from the National Corpus of Polish (Lewandowska-Tomaszczyk et al., 2012). Native speakers provided judgments on modifier attachment, which served as a benchmark for heuristic performance.
The results show that heuristics relying on statistical and distributional information can capture important patterns in how speakers interpret ambiguous structures, though their effectiveness is limited by lexical ambiguity, structural complexity, and corpus coverage. These findings highlight both the potential and the limitations of corpus-based approaches, and point toward the need for hybrid models that integrate multiple sources of linguistic and statistical information.
Dezambiguacja wieloznaczności struktury koordynacyjnej w języku polskim: podejście heurystyczne