Licencja
Efficient Classification of Text Documents Using Word Embeddings' Distributions
Abstrakt (PL)
Sztuczna inteligencja przeżywa obecnie gwałtowny rozwój. Chociaż każdego miesiąca prezentowane są nowe, przełomowe rozwiązania w zakresie przetwarzania języka naturalnego, klasyfikacja tekstów zawierających specyficzny język, takich jak dokumenty patentowe, nadal stanowi wyzwanie. W niniejszej pracy przedstawiam metodę klasyfikacji dokumentów, która opiera się na użyciu chmur zanurzeń słów oraz ich rozkładów brzegowych. Rozkłady te są następnie wykorzystywane jako dane wejściowe dla klasyfikatora opartego na sztucznej sieci neuronowej. Metoda została przetestowana na opisach z dokumentów patentowych i chociaż nie osiągnęła wysokich wyników, to na jej przykładzie można dowiedzieć się więcej o naturze problemu.
Abstrakt (EN)
Artificial intelligence is currently experiencing an all-round rapid development. Although new, benchmark-breaking Natural Language Processing solutions are presented each month, text classification of highly specific documents, such as patent files, is still a challenge. In this work, I present a document (paragraph) classification method, which relies on embedding clouds and their marginal distributions. These distributions are then used as features for an artificial neural network classifier. The method is evaluated on patent descriptions and although it doesn’t achieve high performance, it does provide insights into the nature of the problem.