Lingwistyczna analiza zjawiska faktywności (na materiale współczesnej polszczyzny)
Abstrakt (PL)
1. Cel naukowy rozprawy Przedmiot rozprawy to zjawisko faktywności we współczesnej polszczyźnie. Celem pracy jest udzielenie odpowiedzi na następuje trzy pytania badawcze: Które czasowniki w języku polskim są faktywne, a które takie nie są? Jak często i w jaki sposób użytkownicy języka polskiego posługują się czasownikami faktywnymi? W jaki sposób działają modele komputerowe przewidujące, czy w danym wypowiedzeniu zachodzi relacja wynikania, sprzeczności bądź niezależności między całym wypowiedzeniem a jego dopełnieniem i jakie dane językowe są potrzebne, by podnosić ich skuteczność? Powyższe pytania przyjmują następujący operacyjny charakter: Dla których przyjętych do analizy czasowników istnieją w Narodowym Korpusie Języka Polskiego (dalej: NKJP) i na stronach indeksowanych przez wyszukiwarkę Google potwierdzenia poprawnych zastosowań wypowiedzeń, świadczące o tym, że dany czasownik jest niefaktywny, a dla których takich potwierdzeń brak? Które czasowniki pomyślnie przechodzą zasadzający się na spreparowanych wypowiedzeniach test na faktywność? Jaki jest procent wypowiedzeń z presupozycją leksykalną ufundowaną na czasowniku faktywnym w Polskim Korpusie Koreferencyjnym (dalej: PKK) i jakimi właściwościami się one odznaczają? Jak często w PKK zdarza się sytuacja, że w wypowiedzeniu użyty został czasownik faktywny, ale presuponowanie prawdziwości dopełnienia zdaniowego nie zachodzi, i jakiego rodzaju są to wypowiedzenia? Które dane językowe z przygotowanego zbioru danych są istotne dla systemów przewidujących relację między całym wypowiedzeniem a będącym jego częścią dopełnieniem p i jakich danych językowych brakuje do tego, by tego rodzaju systemy zwiększyły swoją efektywność? 2. Uzasadnienie podjęcia problemu badawczego na tle dotychczasowego stanu wiedzy Mechanizm presupozycji leksykalnej został z jednej strony w literaturze zarówno lingwistycznej, jak i filozoficznej dość dobrze rozpoznany (choć dają się w tym obszarze zaobserwować duże rozbieżności natury pojęciowo-terminologicznej), z drugiej zaś – niewiele wiadomo o skali i sposobie stosowania wyrażeń faktywnych w procesie komunikacji. Istotne braki dotyczą również wiedzy na temat tego, które jednostki w danym języku etnicznym są faktywne. Język polski nie stanowi tutaj wyjątku. Ów niedostatek wiedzy jest tym bardziej uderzający, że presupozycje odgrywają jedną z podstawowych ról w porozumiewaniu się, stanowią trzon logiki mowy. Ich niedostrzeganie może prowadzić do różnego rodzaju komunikacyjnych zakłóceń i nieporozumień. Z kolei umiejętne posługiwanie się presupozycjami może być wykorzystywane w perswazji i manipulacji. Dlatego też nie ulega wątpliwości, że wiedza na temat zjawiska presuponowania i jego leksykalnych narzędzi powinna być częścią kultury logicznej każdego użytkownika języka. Do tej pory nie powstała monografia w całości poświęcona zagadnieniu faktywności w języku polskim. Prezentowana rozprawa stawia sobie za cel wypełnienie tej luki badawczej. Oryginalny wkład pracy w dorobek dyscypliny przedstawiają poniższe punkty. Wynikiem przeprowadzonych badań jest obszerna (325 pozycji) lista czasowników faktywnych i niefaktywnych o najwyższej frekwencji w polszczyźnie. Wykonane analizy i obliczenia pozwalają na: (a) oszacowanie częstotliwości użycia czasowników faktywnych i niefaktywnych w konstrukcji syntaktycznej „V{że}p” we współczesnej polszczyźnie, (b) ustalenie i scharakteryzowanie sposobów, w jakie użytkownicy języka polskiego używają czasowników faktywnych. Rezultatem prowadzonych badań jest zbiór danych (2500 przykładów), obrazujący relację między opozycją faktywność – niefaktywność a trzema relacjami semantycznymi: wynikaniem, sprzecznością i niezależnością. W ramach przeprowadzonych analiz zidentyfikowane zostały główne problemy, z którymi muszą zmierzyć się modele komputerowe przewidujące relacje semantyczne (wynikanie, sprzeczność, niezależność) między całym wypowiedzeniem a będącym jego częścią dopełnieniem zdaniowym w konstrukacji syntaktycznej „V{że}p”. 3. Podbudowa teoretyczna prowadzonych badań Analizy semantyczne przeprowadzam w ramach strukturalistycznego paradygmatu naukowego opartego na myśli Ferdinanda de Saussure’a. Metodologia, którą się posługuję, jest współcześnie praktykowana i rozwijana w Polsce w kilku ośrodkach naukowych. Za jej głównego przedstawiciela należy uznać Andrzeja Bogusławskiego (zob. przede wszystkim 1976, 1998). Syntetyczne sformułowanie głównych postulatów metodologicznych tego nurtu można znaleźć w pracy Danielewiczowej (2012). Nurt ten jest przez niektórych badaczy nazywany „polską szkołą semantyczną” (np. Dobaczewski 2008). Definicje kluczowych terminów wykorzystanych w pracy są następujące: wynikanie: informacja i wynika z wypowiedzenia U wtedy i tylko wtedy, gdy i należy do struktury informacyjnej U; presupozycja: informacja i jest presuponowana przez nadawcę wypowiedzenia U wtedy i tylko wtedy, gdy i należy do niewrażliwej na negację wewnętrzną części struktury informacyjnej U; czasownik faktywny: czasownik V jest elementem zbioru jednostek faktywnych wtedy i tylko wtedy, gdy do niewrażliwej na negację części znaczenia V należą informacje p i Kmp. 4. Metody badawcze Ogólne ramy metodologiczne przyjętego w pracy paradygmatu strukturalistycznego można scharakteryzować w następujących punktach: Adekwatna delimitacja języka, czyli zgodne z rzeczywistością wyodrębnianie i odróżnianie od siebie obiektów konstytuujących zarówno system leksykalny, jak i operacyjny, jest podstawową kwestią w badaniach nad językiem. Inaczej niż ma to miejsce w praktyce leksykograficznej, ciężar ontologiczny jest przeniesiony z wielości znaczeń na wielość obiektów językowych. Zysk takiego podejścia polega na dążeniu do przypisania każdemu wyrażeniu tylko jednego znaczenia, co pozwala pozbyć się polisemii (zob. Danielewiczowa 2011). Badania semantyczne powinny mieć charakter empiryczny. Znaczy to, że jeśli testowanie danej hipotezy semantycznej jest możliwe za pomocą innych środków niż powoływanie się na własną kompetencję językową, to badacz powinien z nich skorzystać. Badania semantyczne powinno się przeprowadzać i opisywać za pomocą spełniającej określone kryteria aparatury pojęciowo-terminologicznej (Danielewiczowa 2018). Zasady, które przyjmuję w tej pracy, są następujące: (a) zastosowanie mają tu tylko te terminy, które w obiegu naukowym zdążyły się już przyjąć i utrwalić; (b) każdy stosowany termin odsyła tylko do jednego pojęcia; (c) każde pojęcie oznaczone jest tylko jednym terminem (znaczy to, że nie używam terminów bliskoznacznych lub synonimicznych); (d) terminom podrzędnym zawsze odpowiada termin nadrzędny (przyjęta siatka pojęciowa tworzy system); (e) zastosowane terminy są ostre; (f) liczba terminów nie jest zbyt mała i nie jest zbyt duża – użytych jest dokładnie tyle, ile wymaga tego opisywany przedmiot; (g) stosowane terminy można zredefiniować, używając terminów matematycznych. Odpowiedź na sformułowane wyżej pytania rozpocząłem od wstępnej selekcji wypowiedzeń z PKK. Następnie podjąłem się (na tyle, na ile było to konieczne) delimitacji jednostek języka. Procedura delimitacji jest szczególnie istotna w odniesieniu do wyrażeń czasownikowych ze względu na fakt, że częstokroć za identycznym kształtem graficznym kryją się różne jednostki leksykalne. Mając listy wchodzących w zakres badań wypowiedzeń i użytych w nich predykatów głównych, przystąpiłem do kolejnego zadania, czyli analizy semantycznej jednostek języka. Interesowało mnie przede wszystkim to, czy dany czasownik jest faktywny. Po ustaleniu, które z 325 badanych czasowników są faktywne, przystąpiłem do analizy uprzednio wybranych, 2348 wypowiedzeń z PKK. Z każdego wypowiedzenia stworzyłem parę <T, H> (<T>eza, <H>ipoteza), która składa się z całego wypowiedzenia T i jego dopełnienia zdaniowego H. Dla każdej takiej pary ustaliłem jedną z trzech relacji: wynikanie, sprzeczność, niezależność. Tak stworzony zbiór danych umożliwił mi obliczanie współwystępowania ze sobą różnych zestawów cech. Przedostatnim krokiem, który należało wykonać, było nadanie zebranym i opracowanym danym językowym kształtu korpusu językowego. Na podstawie stworzonego przeze mnie korpusu zostało wytrenowanych kilka modeli języka z użyciem metody uczenia maszynowego. Celem tych modeli było przewidywanie relacji (wynikanie, sprzeczność, niezależność) między całym zdaniem a jego dopełnieniem zdaniowym p. Ostatni krok to analiza działania powyższych modeli. Przyglądałem się poprawnym i niepoprawnym predykcjom, starając się wyciągnąć wnioski dotyczące zarówno zbioru danych, jak i sposobu działania modeli. Przeprowadzona analiza semantyczna, wykonane pomiary oraz interpretacja działania modeli komputerowych pozwoliła na udzielenie odpowiedzi na postawione pytania badawcze. 5. Źródła danych Głównym źródłem danych jest NKJP. Oprócz tego korpusu wykorzystuję też Internet, z ograniczeniem się do stron indeksowanych przez wyszukiwarkę Google. W odniesieniu do obu tych źródeł nie korzystam z materiałów sprzed 1945 roku. Ten właśnie rok według Klemensiewicza (1985) wyznacza granicę oddzielającą polszczyznę współczesną od dawniejszej. Oprócz oglądu materiału korpusowego stosuję również analizę materiału negatywnego w postaci wypowiedzeń spreparowanych. 6. Struktura rozprawy Rozprawa składa się z pięciu rozdziałów. W pierwszym z nich skupiam się na zaprezentowaniu zintegrowanej siatki pojęciowo-terminologicznej, która znalazła zastosowanie w pracy. Drugi rozdział rozpoczynam od przedstawienia kryteriów, które stosuję do weryfikacji przeciwstawnych względem siebie hipotez na temat faktywności danych jednostek leksykalnych. Po zaprezentowaniu i omówieniu sposobu, w jaki badam, czy dana jednostka jest faktywna, przechodzę do omówienia wybranych wyrażeń. Analizowane czasowniki podzieliłem na następujące cztery klasy semantyczne: czasowniki epistemiczne, percepcyjne, mówienia i emotywne. Zdecydowanie najwięcej uwagi poświęcam epistemicznemu czasownikowi wiedzieć, że_, który jest kluczową jednostką w klasie wyrażeń faktywnych. Trzeci rozdział zawiera przede wszystkim liczbowe wyniki analiz wypowiedzeń z PKK. W rozdziale zaprezentowane są między innymi takie dane, jak np. stosunek czasowników faktywnych do niefaktywnych czy współwystępowanie takich cech jak niefaktywność i wynikanie. W czwartym rozdziale skupiam się na wynikach wytrenowanych za pomocą uczenia maszynowego modeli i na analizie ich działania. Przyglądam się modelom, które trenowane były na podstawie cech w stworzonym przeze mnie zbiorze danych. Głównym zadaniem wytrenowanych modeli było przewidywanie jednej z trzech relacji: wynikania, sprzeczności, niezależności, między całym wypowiedzeniem a stanowiącym jego część dopełnieniem. Porównuję ze sobą wyniki poszczególnych modeli, z uwzględnieniem wyników uzyskanych dla trzech powyższych relacji logicznych. Rozdział piąty to podsumowanie całej pracy. Wracam w nim do postawionych pytań badawczych i w skrótowej formie formułuję i omawiam uzyskane odpowiedzi. 7. Wykaz literatury cytowanej w konspekcie Bogusławski A. (1976): O zasadach rejestracji jednostek języka. W: Poradnik Językowy 8. 356–364. Bogusławski A. (1998): Science as linguistic activity, linguistics as scientific activity. Warszawa. Katedra Lingwistyki Formalnej Uniwersytetu Warszawskiego. Danielewiczowa M. (2011): Wieloznaczność – skaza na języku czy na jego opisie? W: D. Kopcińska, M. Bańko (red.) Różne formy, różne treści. Tom ofiarowany Profesorowi Markowi Świdzińskiemu. Warszawa. Wydział Polonistyki Uniwersytetu Warszawskiego. 37–47. Danielewiczowa M. (2012): W głąb specjalizacji znaczeń. Przysłówkowe metapredykaty atestacyjne. Warszawa. Bel Studio. Dobaczewski A. (2008): Tzw. polska szkoła semantyczna a założenia strukturalizmu, czyli Ferdinand de Saussure redivivus. W: A. Kiklewicz, J. Dębowski (red.) Język poza Granicami Języka. Olsztyn. 443–452. Danielewiczowa M. (2018): Terminomania i terminofobia we współczesnej lingwistyce. W: Tomasz Mika, Dorota Rojszczak-Robińska, Olga Ziółkowska (red.) Staropolskie Spotkania Językoznawcze. Terminy w językoznawstwie synchronicznym i diachronicznym. Poznań. Wydawnictwo Rys. 17–22. Klemensiewicz Z. (1985): Historia języka polskiego. Warszawa. PWN.