Investigating methods of assessing quality of Natural Language Generation systems
Investigating methods of assessing quality of Natural Language Generation systems
Abstrakt (PL)
Celem systemów NLG (Natural Language Generation) jest generowanie tekstów imitujących ludzkie używanie języka naturalnego. Ostatni postęp w dziedzinie sztucznej inteligencji (AI) doprowadził również do postępu w modelach NLG i umożliwił wykorzystanie tych systemów w różnych zastosowaniach, takich jak automatyczne tłumaczenia, generowanie podpisów do zdjęć, wirtualni asystenci lub chatboty. Do oceny postępów w dziedzinie NLG i jego poszczególnych podzadaniach, niezbędne jest ustandaryzowanie procesu oceny tych systemów. Szeroki zakres automatycznych metryk daje wyniki oceny szybko i przy niewielkim wysiłku, choć wciąż ocena ludzka jest postrzegana jako najbardziej wiarygodna metoda. Celem niniejszej pracy jest zbadanie metod oceny systemów NLG na przykładzie systemu generującego podpisy do zdjęć. Przeprowadzone badanie ma na celu dostarczenie dobrze opisanej ludzkiej oceny modelu ClipCap oraz badania korelacyjnego na poziomie zdań między metrykami automatycznymi i wynikam oceny ludzkiej. Współczynniki korelacji Spearmana pomiędzy metrykami BLEU-4, METEOR, ROUGE-L i CIDEr a ocenami dokonywanymi przez uczestników eksperymentu wykazały istotne statystycznie zależności. Najwyższy współczynnik korelacji uzyskano dla metryki CIDEr, która została stworzona do oceny systemów automatycznie generujących opisy do zdjęć.
Abstrakt (EN)
The objective of the NLG (Natural Language Generation) systems is to generate texts imitating human writing. Recent progress in Artificial Intelligence (AI) led also to advancements in NLG approaches and enabled utilizing these systems in various applications such as automatic translations, image captioning, virtual assistants, or chatbots. To track the progress in the field of NLG and its subtasks there is a need for a standardized process of evaluation of these systems. A wide range of automatic evaluation metrics gives rating scores quickly and with little effort but still human evaluation is perceived as the most reliable method. The purpose of this thesis is to investigate methods of the NLG systems assessment on the example of an Image Captioning (IC) system. The conducted study attempts to provide a well-described human evaluation of the ClipCap model and a correlational study at the sentence level between automatic metrics and human evaluation results. Spearman correlation coefficients between BLEU-4, METEOR, ROUGE-L, and CIDEr metrics and human evaluation Multi-aspect ratings indicated statistically significant dependences. The highest correlation coefficient was obtained for the CIDEr metric that was designed for evaluating image descriptions.
Badanie metod oceny jakości systemów generujących język naturalny