Licencja
Sentiment Analysis of Polish and English Headlines and Their Direct and Indirect Machine Translations
Abstrakt (PL)
Niniejsza praca skupia się na analizie wydźwięku emocjonalnego angielskich i polskich nagłówków oraz ich bezpośrednich i pośrednich, przez język arabski, tłumaczeń maszynowych. Celem było zbadanie wpływu tłumaczenia maszynowego na wydźwięk emocjonalny nagłówków oraz ocena jakości tego tłumaczenia, a także zbadanie skuteczności chatbota Gemini w automatycznej analizie wydźwięku. Praca podzielona jest na cztery rozdziały. Trzy pierwsze rozdziały stanowią część teoretyczną i skupiają się odpowiednio na trzech kluczowych dla pracy pojęciach, tj. tłumaczenie maszynowe, analiza wydźwięku emocjonalnego oraz nagłówek. Rozdział czwarty z kolei stanowi część praktyczną i dotyczy analizy wydźwięku emocjonalnego nagłówków w języku angielskim i polskim oraz ich bezpośrednich i pośrednich tłumaczeń. Analizie poddano 200 nagłówków w języku angielskim z BuzzFeed i 200 nagłówków w języku polskim z Faktu oraz ich tłumaczeń wygenerowanych przez Google Translate, które zostały automatycznie zaklasyfikowane jako pozytywne, neutralne albo negatywne z wykorzystaniem Gemini. Następnie przeprowadzono manualną analizę wydźwięku oryginalnych nagłówków oraz szczegółową manualną analizę wydźwięku wybranych tłumaczeń oraz ich jakości. Uzyskane wyniki wskazują, że chatbot może być skutecznie wykorzystany w analizie wydźwięku emocjonalnego zarówno w przypadku języka angielskiego (83%), jak i polskiego (82%), przy czym uzyskiwane wyniki nie zawsze są spójne. Ponadto chatbot częściej klasyfikuje nagłówki jako nieneutralne niż w przypadku analizy wykonanej przez człowieka – szczególnie w przypadku języka angielskiego. Google Translate rzadko całkowicie zmienia biegunowość wydźwięku, niemniej tłumaczenie maszynowe nie zawsze jest w pełni poprawne, a błędy są niekiedy bardzo poważne. W odniesieniu do wydźwięku różnice pojawiające się w tłumaczeniu dotyczą np. jego intensywności, pominięcia ewentualnych wulgaryzmów, zmiany obiektu, w stronę którego wydźwięk jest skierowany, czy też autora jakiegoś stwierdzenia, a zmiany te zaobserwowano częściej w przypadku przekładu pośredniego przez język arabski, co jest ściśle związane z niższą jakością samego przekładu.
Abstrakt (EN)
This thesis focuses on the sentiment analysis of English and Polish headlines and their direct and indirect, via Arabic, machine translations. The aim was to investigate the impact of machine translation on the sentiment of headlines and to assess the quality of this translation, as well as to examine the effectiveness of the Gemini chatbot in automatic sentiment analysis. The paper is divided into four chapters. The first three chapters constitute the theoretical part and focus, respectively, on the three key concepts for this thesis, i.e. machine translation, sentiment analysis, and headline. The fourth chapter is the practical part and concerns the sentiment analysis of headlines in English and Polish, as well as their direct and indirect translations. The analysis covered 200 headlines in English from BuzzFeed and 200 headlines in Polish from Fakt and their translations generated by Google Translate, which were automatically classified as positive, neutral, or negative using Gemini. This was followed by a manual analysis of the sentiment of the original headlines and a detailed manual analysis of the sentiment of the selected translations and their quality. The results indicate that the chatbot can be effectively used in the analysis of sentiment in both English (83%) and Polish (82%), although the results obtained are not always consistent. Moreover, the chatbot is more likely to classify headlines as non-neutral than in the case of human evaluation – especially in English. In addition, Google Translate rarely completely changes the polarity of the sentiment, but machine translation is not always fully correct, and the errors are sometimes very serious. With regard to the sentiment, the differences that appear in translation concern, for instance, sentiment intensity, the omission of some swear words, the change of the object towards which the sentiment is directed, or the author of a statement, and these changes were observed more often in the case of the indirect translation via Arabic, which is closely related to the lower quality of the translation itself.