Praca magisterska
Brak miniatury
Licencja

ClosedAccessDostęp zamknięty
 

Detecting anomalies in financial data using selected machine learning algorithms

Uproszczony widok
dc.abstract.enIn our research we compare effectiveness of the Isolation Forest algorithm proposed by Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou with its two extensions, i.e., the Extended Isolation Forest algorithm due to Sahand Hariri, Matias Carrasco Kind, Robert J. Brunner and the Generalized Isolation Forest algorithm due to Julien Lesouple, Cedric Baudoin, Marc Spigai, Jean-Yves Tourneret. Our main focus is financial fraud detection, where we analyze transactional datasets containing behaviours that correspond to most common illegal schemes. Given that real-life datasets of financial transactions are rare and hard to obtain, we create our own synthetic data generator. The results of our numerical simulations show that: only basic version of Isolation Forest works well on raw data; on rescaled data all versions have similar results in terms of accuracy; feature selection and data division are keys for improving detection; implementation of Generalized Isolation Forest is much slower due to lack of optimization.
dc.abstract.plW naszych badaniach porównujemy skuteczność algorytmu Isolation Forest zaproponowanego przez Fei Tony’ego Liu, Kai Ming Tinga i Zhi-Hua Zhou z jego dwoma rozszerzeniami, tj. algorytmem Extended Isolation Forest autorstwa Sahanda Haririego, Matiasa Carrasco Kinda, Roberta J. Brunnera i algorytm Generalized Isolation Forest autorstwa Juliena Lesouple'a, Cedrica Baudoina, Marca Spigai, Jean-Yvesa Tournereta. Naszym głównym celem jest wykrywanie oszustw finansowych, gdzie analizujemy zbiory danych transakcyjnych zawierające zachowania odpowiadające najpopularniejszym nielegalnym schematom. Biorąc pod uwagę, że rzeczywiste zbiory danych dotyczące transakcji finansowych są rzadkie i trudne do uzyskania, tworzymy własny generator danych syntetycznych. Wyniki naszych symulacji numerycznych pokazują, że: tylko podstawowa wersja Isolation Forest działa dobrze na surowych danych; na danych przeskalowanych wszystkie wersje mają podobne wyniki pod względem dokładności; wybór cech i podział danych są kluczowe w poprawie wyników; implementacja Generalized Isolation Forest jest znacznie wolniejsze ze względu na brak optymalizacji.
dc.affiliationUniwersytet Warszawski
dc.affiliation.departmentWydział Matematyki, Informatyki i Mechaniki
dc.contributor.authorSotniczuk, Piotr
dc.date.accessioned2025-01-09T12:48:09Z
dc.date.available2025-01-09T12:48:09Z
dc.date.defence2023-12-19
dc.date.issued2023
dc.description.promoterMichalak, Tomasz
dc.description.reviewerMichalak, Tomasz
dc.description.reviewerSkibski, Oskar
dc.identifier.apd223617
dc.identifier.urihttps://repozytorium.uw.edu.pl//handle/item/164332
dc.languageen
dc.language.otherpl
dc.publisherUniwersytet Warszawski
dc.rightsClosedAccess
dc.subject.enfinancial data
dc.subject.enanomaly detection
dc.subject.endata processing
dc.subject.enIsolation Forest
dc.subject.enExplainable AI
dc.subject.pldane finansowe
dc.subject.plwykrywanie anomalii
dc.subject.plprzetwarzanie danych
dc.subject.pllas izolacji
dc.subject.plwyjaśnialne uczenie maszynowe
dc.titleDetecting anomalies in financial data using selected machine learning algorithms
dc.title.alternativeWykrywanie anomalii w danych finansowych przy użyciu wybranych algorytmów uczenia maszynowego
dc.typeMasterThesis
dspace.entity.typePublication