Praca magisterska
Brak miniatury
Licencja

ClosedAccessDostęp zamknięty

Topic modeling of text corpora using embeddings clustering

Autor
Łukasiewicz-Pater, Julia
Promotor
Kobyliński, Łukasz
Przepiórkowski, Adam
Data publikacji
2023
Abstrakt (PL)

Niniejsze badanie koncentruje się na kompleksowej ocenie różnych technik modelowa- nia tematycznego w kontekście polskich korpusów. Skupia się na metodach mających na celu identyfikację ukrytych tematów w korpusach tekstowych poprzez grupowanie zanurzeń w przestrzeni wielowymiarowej. Badanie porównuje podejścia, które wyko- rzystują różne reprezentacje tekstu, algorytmy grupowania oraz strategie wyodręb- niania i szeregowania tematów. Brane pod uwagę są dwa kluczowe kryteria: zdol- ność do dokładnego reprezentowania struktury tematycznej korpusu oraz użyteczność do porównywania par korpusów. Działanie badanych metod oceniane jest na sześciu różnych polskich korpusach obejmujących różną tematykę w celu określenia skuteczności tych technik. Wyniki dostarczają ważnych informacji o skuteczności ewaluowanych metod i ich praktyczności w analizowaniu i porównywaniu polskich korpusów.

Abstrakt (EN)

This study focuses on a comprehensive evaluation of various topic modeling techniques in the context of Polish corpora. It investigates methods aimed at identifying la- tent topics within textual corpora through clustering in multidimensional space. The research compares frameworks that employ different text representations, clustering algorithms, and strategies for extracting and reranking topics. Two key criteria are examined: the ability to accurately represent the corpus’s topical structure and the utility for comparing pairs of corpora. The study assesses six distinct Polish corpora spanning diverse subject matters to determine the effectiveness of these techniques. Results reveal important insights into the performance of these methods and their practicality for analyzing and comparing Polish corpora.

Słowa kluczowe PL
Modelowanie tematyczne
Modelowanie języka naturalnego
Klastrowanie
fastText
BERTopic
Top2Vec
Inny tytuł
Modelowanie tematyczne korpusów tekstowych z wykorzystaniem klastrowania zanurzeń
Wydawca
Uniwersytet Warszawski
Data obrony
2023-12-22
Licencja otwartego dostępu
Dostęp zamknięty