Investigating methods of assessing quality of Natural Language Generation systems

Sulikowska, Emilia

Praca magisterska

Licencja

Dostęp zamknięty

Statystyki

Investigating methods of assessing quality of Natural Language Generation systems

Autor

Sulikowska Emilia

Promotor

Kobyliński Łukasz

Zubek Julian

Data publikacji

2025

Abstrakt (PL)

Celem systemów NLG (Natural Language Generation) jest generowanie tekstów imitujących ludzkie używanie języka naturalnego. Ostatni postęp w dziedzinie sztucznej inteligencji (AI) doprowadził również do postępu w modelach NLG i umożliwił wykorzystanie tych systemów w różnych zastosowaniach, takich jak automatyczne tłumaczenia, generowanie podpisów do zdjęć, wirtualni asystenci lub chatboty. Do oceny postępów w dziedzinie NLG i jego poszczególnych podzadaniach, niezbędne jest ustandaryzowanie procesu oceny tych systemów. Szeroki zakres automatycznych metryk daje wyniki oceny szybko i przy niewielkim wysiłku, choć wciąż ocena ludzka jest postrzegana jako najbardziej wiarygodna metoda. Celem niniejszej pracy jest zbadanie metod oceny systemów NLG na przykładzie systemu generującego podpisy do zdjęć. Przeprowadzone badanie ma na celu dostarczenie dobrze opisanej ludzkiej oceny modelu ClipCap oraz badania korelacyjnego na poziomie zdań między metrykami automatycznymi i wynikam oceny ludzkiej. Współczynniki korelacji Spearmana pomiędzy metrykami BLEU-4, METEOR, ROUGE-L i CIDEr a ocenami dokonywanymi przez uczestników eksperymentu wykazały istotne statystycznie zależności. Najwyższy współczynnik korelacji uzyskano dla metryki CIDEr, która została stworzona do oceny systemów automatycznie generujących opisy do zdjęć.

Abstrakt (EN)

The objective of the NLG (Natural Language Generation) systems is to generate texts imitating human writing. Recent progress in Artificial Intelligence (AI) led also to advancements in NLG approaches and enabled utilizing these systems in various applications such as automatic translations, image captioning, virtual assistants, or chatbots. To track the progress in the field of NLG and its subtasks there is a need for a standardized process of evaluation of these systems. A wide range of automatic evaluation metrics gives rating scores quickly and with little effort but still human evaluation is perceived as the most reliable method. The purpose of this thesis is to investigate methods of the NLG systems assessment on the example of an Image Captioning (IC) system. The conducted study attempts to provide a well-described human evaluation of the ClipCap model and a correlational study at the sentence level between automatic metrics and human evaluation results. Spearman correlation coefficients between BLEU-4, METEOR, ROUGE-L, and CIDEr metrics and human evaluation Multi-aspect ratings indicated statistically significant dependences. The highest correlation coefficient was obtained for the CIDEr metric that was designed for evaluating image descriptions.

Słowa kluczowe PL

generowanie języka naturalnego

NLG

automatyczne opisywanie zdjęć

ewaluacja modeli NLG

Inny tytuł

Badanie metod oceny jakości systemów generujących język naturalny

Wydawca

Uniwersytet Warszawski

Data obrony

2025-02-19

Licencja otwartego dostępu