Praca magisterska
Brak miniatury
Licencja

ClosedAccessDostęp zamknięty
 

Efficient Classification of Text Documents Using Word Embeddings' Distributions

Uproszczony widok
dc.abstract.enArtificial intelligence is currently experiencing an all-round rapid development. Although new, benchmark-breaking Natural Language Processing solutions are presented each month, text classification of highly specific documents, such as patent files, is still a challenge. In this work, I present a document (paragraph) classification method, which relies on embedding clouds and their marginal distributions. These distributions are then used as features for an artificial neural network classifier. The method is evaluated on patent descriptions and although it doesn’t achieve high performance, it does provide insights into the nature of the problem.
dc.abstract.plSztuczna inteligencja przeżywa obecnie gwałtowny rozwój. Chociaż każdego miesiąca prezentowane są nowe, przełomowe rozwiązania w zakresie przetwarzania języka naturalnego, klasyfikacja tekstów zawierających specyficzny język, takich jak dokumenty patentowe, nadal stanowi wyzwanie. W niniejszej pracy przedstawiam metodę klasyfikacji dokumentów, która opiera się na użyciu chmur zanurzeń słów oraz ich rozkładów brzegowych. Rozkłady te są następnie wykorzystywane jako dane wejściowe dla klasyfikatora opartego na sztucznej sieci neuronowej. Metoda została przetestowana na opisach z dokumentów patentowych i chociaż nie osiągnęła wysokich wyników, to na jej przykładzie można dowiedzieć się więcej o naturze problemu.
dc.affiliationUniwersytet Warszawski
dc.affiliation.departmentWydział Psychologii
dc.contributor.authorRynkun, Szymon
dc.date.accessioned2025-01-09T12:49:28Z
dc.date.available2025-01-09T12:49:28Z
dc.date.defence2024-07-18
dc.date.issued2024
dc.date.submitted2024-07-04
dc.description.promoterSzczuka, Marcin
dc.description.reviewerZadrożny, Adam
dc.description.reviewerSzczuka, Marcin
dc.identifier.apd228900
dc.identifier.urihttps://repozytorium.uw.edu.pl//handle/item/164989
dc.languageen
dc.language.otherpl
dc.publisherUniwersytet Warszawski
dc.rightsClosedAccess
dc.subject.enNatural Language Processing
dc.subject.enMachine Learning
dc.subject.enText Classification
dc.subject.enWord Embeddings
dc.subject.enMarginal Distributions
dc.subject.plPrzetwarzanie języka naturalnego
dc.subject.plUczeni maszynowe
dc.subject.plKlasyfikacja tekstu
dc.subject.plZanurzenia słów
dc.subject.plRozkłady brzegowe
dc.titleEfficient Classification of Text Documents Using Word Embeddings' Distributions
dc.title.alternativeWydajna klasyfikacja dokumentów tekstowych przy użyciu rozkładów zanurzeń słów
dc.typeMasterThesis
dspace.entity.typePublication