Licencja
Comparison of linguistic characteristics of lies detected by humans and machine models
Abstrakt (PL)
Wykrywanie kłamstwa jest jednym z zadań, w którym modele uczenia maszynowego przewyższają już ludzi. W niniejszej pracy magisterskiej zbadano różnice w występowaniu markerów językowych w wypowiedziach w zależności od tego, czy wypowiedzi te zostały sklasyfikowane przez sędziów ludzkich i maszynowych jako prawdziwe lub fałszywe. Na początku zebrano od 400 uczestników badania 1600 wypowiedzi (z czego połowa prawdziwych a połowa fałszywych), w formie ustnej i pisemnej. Ustne wypowiedzi zostały poddane transkrypcji. Następnie wszystkie wypowiedzi zostały sklasyfikowane jako prawdziwe lub fałszywe przez sędziów ludzkich oraz model uczenia głębokiego. Zważywszy, iż zadanie charakteryzuje się 50% szansą odgadnięcia prawidłowej odpowiedzi, należy odnotować, że skuteczność modelu maszynowego w wykrywaniu kłamstwa jedynie w umiarkowanym stopniu przewyższa ludzką (zgodność na poziomie 0.68 w porównaniu z 0.54- 0.60). W kolejnym etapie przeanalizowano różnice w występowaniu wybranych markerów językowych w wypowiedziach zaklasyfikowanych jako prawdzie i fałszywe przez zagregowanego sędziego ludzkiego oraz przez model uczenia głębokiego. Porównanie tych rozkładów z rzeczywistymi oznaczeniami wypowiedzi umożliwiło wyciągnięcie wniosków na temat udziału poszczególnych markerów w decyzjach klasyfikacyjnych obu sędziów. Spośród 13 markerów wybranych do badania, jedynie cztery wykazały statystycznie istotne różnice w rozkładzie. Wykryte różnice odnoszą się w głównej mierze do markerów związanych ze złożonością wypowiedzi, jej długością oraz obecnością zaimków osobowych.
Abstrakt (EN)
Lie detection is one of the skills where machine learning models already outperform humans. In the present thesis, differences are investigated in the patterns of linguistic marker occurrence in statements classified as either truthful or deceptive by human and machine lie detectors. First, 1600 truthful and deceitful statements (1:1 ratio) were collected from 400 participants in both written and spoken form. The spoken statements were then transcribed. All statements were then independently classified as truthful or deceitful by human judges and a deep-learning machine model. Considering that chance level performance would only be 50%, the machine model’s performance in the lie detection task is only modestly superior to that of an average human lie detector (accuracy score of 0.68 vs. 0.54-0.60). By analyzing distributions of selected stylometric cues in statements classified as truthful and deceitful by human judges and a deep-learning machine model and comparing them to the ground truth, conclusions are drawn about how the different cues might be factored into the final classification decision for an aggregated human judge and the machine model. Results show that of the 13 selected cues, only four show statistically significant differences in distribution. The differences which emerge between the human and machine lie detectors predominantly occur for cues belonging to categories of complexity, utterance length and personal pronouns.