Praca doktorska
Ładowanie...
Miniatura
Licencja

ClosedAccessDostęp zamknięty

Warunki skuteczności aktu mowy w interakcji człowiek – sztuczna inteligencja

Autor
Zaleska, Monika
Promotor
Czachur, Waldemar
Data publikacji
2022-03-14
Abstrakt (PL)

Celem niniejszej rozprawy doktorskiej jest scharakteryzowanie szczególnego rodzaju aktu mowy, jaki zachodzi w interakcji człowiek-sztuczna inteligencja oraz przedstawienie aspektów mogących negatywnie wpłynąć na jego skuteczność. Dysertacja stanowi zintegrowaną refleksję z zakresu językoznawstwa pragmatycznego, lingwistyki mediów oraz lingwistyki komputerowej. Praca rozpoczyna się dyskusją na temat najważniejszych aspektów teorii aktów mowy oraz ich krytyki. Następnie omawiana jest dialogiczna koncepcja języka Michaiła Bachtina oraz najważniejsze dokonania w ramach funkcjonalnych spojrzeń na użycie języka. Dzięki temu udaje się zdefiniować podstawowe warunki skuteczności aktu mowy. Możemy do nich zaliczyć na przykład: istnienie akceptowalnej przez ogół konwencjonalnej formuły, która niesie ze sobą określony efekt, znajomość szerszego kontekstu, przestrzeganie reguły kooperacji i towarzyszących jej maksym, wystarczająca wiedza o świecie, poprawność gramatyczna, zachowanie reguł grzeczności. Kolejny krok to próba zdefiniowania pojęcia komunikacji i jej szczególnego rodzaju, a mianowicie komunikacji zmediatyzowanej. Dokonanie tejże charakterystyki pozwoliło na zidentyfikowanie czy w ramach tego rodzaju komunikacji istnieją jeszcze inne aspekty, które mogą negatywnie wpłynąć na skuteczność aktu mowy. Analiza wykazała, że język komunikacji zmediatyzowanej nie jest tylko prostym odbiciem codziennej komunikacji face-to-face. Między tymi dwiema formami komunikacji zachodzi wzajemnie warunkująca się relacja. Komunikację zmediatyzowaną cechuje większa różnorodność społeczna jej użytkowników niż w przypadku komunikacji tradycyjnej. Możemy tu mówić także o bardzo dużej anonimowości użytkowników. W tej formie komunikacji nie ma również ograniczeń czasowych ani terytorialnych. Komunikacja zmediatyzowana niesie za sobą przez to również pewne wyzwania, które wynikają głównie z ograniczonego w dużej mierze postrzegania zmysłowego. W celu zwiększenia skuteczności aktów mowy w ramach tego rodzaju komunikacji wykształciły się pewne strategie kompensacyjne, które powstały w celu zastąpienia komunikatów niewerbalnych i parawerbalnych. Należą do nich: stosowanie skrótów, emotikon i emoji; pisemne zapisywanie reakcji niewerbalnych; stosowanie wersalików oraz zapisu fonetycznego; zwielokrotnienie liter oraz znaków interpunkcyjnych; pomijanie znaków diakrytycznych; redukcja znaków pisma do małych liter. Jak wykaże późniejsza analiza strategie te usprawniają komunikację międzyludzką, stanowią jednak dużą barierę dla sztucznej inteligencji. Następnie należało odpowiedzieć na pytanie, czym charakteryzuje się szczególny akt mowy, jaki ma miejsce w interakcji człowiek-sztuczna inteligencja. W tym celu przedstawiono najważniejsze zagadnienia z zakresu przetwarzania języka naturalnego. Sztuczną inteligencję należy definiować w kontekście tej pracy jako zdolność systemu (na przykład programu komputerowego) do prawidłowego interpretowania danych pochodzących z zewnętrznych źródeł, do nauki na ich podstawie oraz do wykorzystywania tej wiedzy, aby wykonywać określone zadania w sposób zbliżony do człowieka, a także osiągać cele poprzez elastyczne dostosowanie się do panujących warunków. Ustalenia dokonane na tej podstawie pokazały natomiast, że narzędzia wykorzystywane do tworzenia sztucznej inteligencji bazują, podobnie jak ludzki umysł, na wielu poziomach analizy języka naturalnego. Przy tworzeniu różnego rodzaju aplikacji, takich jak na przykład systemy dialogowe, brane są pod uwagę zarówno aspekty fonologiczne, morfologiczne, leksykalne i składniowe, a także semantyczne, pragmatyczne oraz te z poziomu analizy dyskursu. Najlepsze wyniki dają zaś aplikacje, które łączą ze sobą wyniki analizy kilku poziomów i są oparte na rozwiązaniach hybrydowych bazujących zarówno na metodach symbolicznych jak i statystycznych. Mając na uwadze podbudowę teoretyczną z wyżej wymienionych zakresów, przystąpiono do przeprowadzenia eksperymentu. W ramach eksperymentu stworzono najpierw kategoryzację 1259 SMS-ów w ramach 19 najpopularniejszych typów aktów mowy, które udało się wyróżnić na podstawie lingwistycznej analizy. Analiza ta przebiegała w następujący sposób. Najpierw wypowiedzi wykazujące takie same lub zbliżone cechy były łączone w grupy. Rekonstruując intencje nadawców wypowiedzi brane było pod uwagę głównie znaczenie poszczególnych słów, a następnie całych wypowiedzi. Gdy taka analiza nie dawała satysfakcjonujących efektów (bo na przykład wypowiedź wydawała wieloznaczna), brany był pod uwagę szerszy kontekst (rzeczywisty lub potencjalny). Kolejny krok to stworzenie systemu reguł, na podstawie których model przypisywał wypowiedziom określone intencje, a następnie udzielał krótkiej odpowiedzi. Na koniec wyniki modelu zostały porównane z kategoryzacją stworzoną na podstawie lingwistycznej analizy korpusu. Dzięki temu możliwe stało się udzielenie odpowiedzi na pytanie o kompetencje językową sztucznej inteligencji. Okazało się, że sztuczna inteligencja nie ma zazwyczaj problemu z analizą semantyki i składni danego języka. Jest ona w stanie w większości przypadków bez trudu, korzystając z reguł bazujących na skonwencjonalizowanych frazach typowych dla danego aktu mowy, przypisać wypowiedzi określoną intencję, jeśli tylko ta wynika z konwencjonalnego znaczenia użytych słów. Problemów przysparza jej jednak analiza wypowiedzi, które mogą zostać użyte z wieloma różnymi intencjami oraz wypowiedzi, których znaczenie nie wynika bezpośrednio z konwencjonalnego znaczenia poszczególnych słów, a więc analiza pragmatyczna. Powodem tego jest zazwyczaj brak dostępu do określonej wiedzy o świecie, który umożliwiłby osadzenie takiej wypowiedzi w szerszym kontekście, co często też utrudnia poprawną interpretację intencji człowiekowi. Czynnikiem, który z kolei może utrudnić sztucznej inteligencji w większym stopniu niż człowiekowi analizę semantyki i składni to nieprzestrzeganie przez użytkowników zasad poprawności gramatycznej i ortograficznej, czyli na przykład pomijanie znaków diakrytycznych czy znaków interpunkcyjnych oraz popełnianie literówek lub błędów ortograficznych w wypowiedziach. O ile sztuczna inteligencja potrafi w wielu przypadkach uzyskać zbliżone wyniki w rozpoznawaniu intencji do człowieka, to jednak jej możliwości dotyczące generowania odpowiedzi są o wiele bardziej ograniczone. Podsumowując powyższe, można zatem mówić jedynie o niepełnej kompetencji językowej sztucznej inteligencji. Dzięki wskazaniu cech charakterystycznych dla tego szczególnego rodzaju aktu mowy, jaki zachodzi w interakcji człowiek-sztuczna inteligencja, możliwe było również sformułowanie wniosków oraz postulatów na przyszłość. Wśród nich należy na pewno wymienić: konieczność bliskiej współpracy w procesie rozwoju sztucznej inteligencji językoznawców oraz programistów, konieczność analizy szerszego kontekstu przez sztuczną inteligencję czy łączenie analizy różnych sygnałów (nie tylko tekstu, a też audio i wideo), aby do analizy włączyć też komunikaty niewerbalne i parawerbalne. W pracy zweryfikowane zostało również, że założenia pragmatyki (między innymi badanie języka w użyciu) są pomocne do analizy komunikacji zmediatyzowanej. Dzięki temu położony został nacisk na kwestię warunków koniecznych do tego, aby dany akt mowy mógł być skuteczny, a nie tylko na analizę formalnych aspektów tego typu komunikacji, takich jak składnia czy leksyka.

Abstrakt (EN)

The aim of this doctoral dissertation is to characterize the specific type of speech act that occurs in the human-artificial intelligence interaction and to present the aspects that may adversely affect its effectiveness. The dissertation is an integrated reflection in the field of pragmatic linguistics, media linguistics and computational linguistics. The work begins with a discussion on the most important aspects of the speech act theory and their criticism. Then Mikhail Bakhtin's dialogical concept of language, as well as the most important achievements of the functional views on the use of language, are discussed. Thanks to this, it is possible to define the basic conditions for the effectiveness of the speech act. The most important of them are: the existence of a generally accepted conventional formula that has a specific effect, knowledge of the broader context, compliance with the cooperation rule and the accompanying maxims, sufficient knowledge about the world, grammatical correctness, following the rules of politeness. The next step is to try to define the concept of communication and its special type, namely mediatized communication. The results of this characterization make it possible to identify whether there are other aspects within this type of communication that may adversely affect the effectiveness of the speech act. The analysis showed that the language of mediatized communication is not merely a simple reflection of everyday face-to-face communication. There is a mutually conditioning relationship between these two forms of communication. Mediatized communication is characterized by greater social diversity of its users than in the case of traditional communication. We can also speak of very high user anonymity. Moreover there are no time or territorial restrictions in this form of communication. Mediatized communication also brings with it certain challenges, which result mainly from the largely limited sensory perception. In order to increase the effectiveness of speech acts, this type of communication has developed some compensatory strategies that have been created to replace non-verbal and paraverbal messages. These include: the use of shortcuts, emoticons and emojis; writing down non-verbal reactions; the use of caps and phonetic notation; multiplication of letters and punctuation marks; omitting diacritical marks; reduction to lowercase. As the subsequent analysis shows, these strategies improve interpersonal communication, but they are a large barrier for artificial intelligence. Next, it was necessary to answer the question: what characterizes the special speech act that takes place in human-artificial intelligence interaction. For this purpose, the most important issues regarding natural language processing are presented. Artificial intelligence should be defined in the context of this work as the ability of a system (for example a computer program) to correctly interpret data from external sources, to learn from them and to use this knowledge to perform certain tasks in a human-like manner, and to achieve goals by flexible adaptation to the prevailing conditions. However, the findings made on this basis showed that artificial intelligence — similar to the human mind — is based on many levels of natural language analysis. During the creation of various application types, such as dialogue systems, phonological, morphological, lexical and syntactic aspects as well as semantic, pragmatic and discourse analysis are taken into account. The best results are achieved by applications that combine the results of the analysis of several levels and are based on hybrid solutions (symbolic and statistical methods). Taking into account the theoretical foundation of the above-mentioned fields, the experiment was started. As part of the experiment, 1,259 text messages were categorized into 19 most popular types of speech acts, which were distinguished on the basis of linguistic analysis. This analysis was as follows. First, utterances showing the same or similar features were grouped. During the reconstruction of the intentions, the meaning of the words and the meaning of the whole utterances were taken into account. When such analysis did not give satisfactory results (for example because of the ambiguity of the utterance), the wider context (real or potential) was taken into consideration. The next step was to create a system of rules on the basis of which the model assigned specific intentions to utterances and then gave a short answer. Finally, the model's results were compared with the categorization derived from the linguistic corpus analysis. Thanks to this, it became possible to answer the question about the linguistic competence of artificial intelligence. It turned out that artificial intelligence usually has no problem with the analysis of semantics and syntax. It is able, in most cases without difficulty, using rules based on conventionalized phrases typical for the given speech act, to assign an utterance to a specific intention only if it results from the conventional meaning of the used words. However, it has problems with the analysis of utterances that can be used with many different intentions, and utterances whose meaning does not directly arise from the conventional meaning of the words, i.e. with pragmatic analysis. The reason for this is usually the lack of access to specific knowledge about the world, which would make it possible to place an utterance in a wider context, which often also makes it challenging for the human to correctly interpret the intentions. A factor that may make it more difficult for artificial intelligence than humans to analyze semantics and syntax is the lack of grammatical and spelling correctness, i.e. omitting diacritics or punctuation marks and making graphical errors or spelling mistakes in such utterances. While artificial intelligence can in many cases obtain similar results to humans in recognizing intentions, its ability to generate responses is much more limited. Summarizing, we can only speak about limited linguistic competence of artificial intelligence. Thanks to the identification of the characteristics of this special speech act type which takes place in the human-artificial intelligence interaction, it was also possible to formulate conclusions and postulates for the future. These include: the need for close cooperation between linguists and programmers in the process of developing artificial intelligence, the need for artificial intelligence to analyze a broader context, or the need for combining the analysis of various signals (not only the text, but also audio and video signals) in order to include non- verbal and paraverbal messages in the analysis. The study also confirms that the assumptions of pragmatics (including the study of language in use) are helpful in the analysis of mediatized communication. Thanks to this, emphasis is placed not only on the analysis of formal aspects of this communication type, such as syntax or lexis, but also on the conditions necessary for the effectiveness of the speech act.

Słowa kluczowe PL
interakcja człowiek-sztuczna inteligencja
pragmatyka
kompetencja językowa
komunikacja zmediatyzowana
komunikacja
warunki skuteczności
sztuczna inteligencja
akt mowy
Inny tytuł
Effectiveness conditions of speech acts in the interaction between humans and artificial inteligence
Data obrony
2022-03-24
Licencja otwartego dostępu
Dostęp zamknięty