Licencja
Detecting anomalies in financial data using selected machine learning algorithms
Abstrakt (PL)
W naszych badaniach porównujemy skuteczność algorytmu Isolation Forest zaproponowanego przez Fei Tony’ego Liu, Kai Ming Tinga i Zhi-Hua Zhou z jego dwoma rozszerzeniami, tj. algorytmem Extended Isolation Forest autorstwa Sahanda Haririego, Matiasa Carrasco Kinda, Roberta J. Brunnera i algorytm Generalized Isolation Forest autorstwa Juliena Lesouple'a, Cedrica Baudoina, Marca Spigai, Jean-Yvesa Tournereta. Naszym głównym celem jest wykrywanie oszustw finansowych, gdzie analizujemy zbiory danych transakcyjnych zawierające zachowania odpowiadające najpopularniejszym nielegalnym schematom. Biorąc pod uwagę, że rzeczywiste zbiory danych dotyczące transakcji finansowych są rzadkie i trudne do uzyskania, tworzymy własny generator danych syntetycznych. Wyniki naszych symulacji numerycznych pokazują, że: tylko podstawowa wersja Isolation Forest działa dobrze na surowych danych; na danych przeskalowanych wszystkie wersje mają podobne wyniki pod względem dokładności; wybór cech i podział danych są kluczowe w poprawie wyników; implementacja Generalized Isolation Forest jest znacznie wolniejsze ze względu na brak optymalizacji.
Abstrakt (EN)
In our research we compare effectiveness of the Isolation Forest algorithm proposed by Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou with its two extensions, i.e., the Extended Isolation Forest algorithm due to Sahand Hariri, Matias Carrasco Kind, Robert J. Brunner and the Generalized Isolation Forest algorithm due to Julien Lesouple, Cedric Baudoin, Marc Spigai, Jean-Yves Tourneret. Our main focus is financial fraud detection, where we analyze transactional datasets containing behaviours that correspond to most common illegal schemes. Given that real-life datasets of financial transactions are rare and hard to obtain, we create our own synthetic data generator. The results of our numerical simulations show that: only basic version of Isolation Forest works well on raw data; on rescaled data all versions have similar results in terms of accuracy; feature selection and data division are keys for improving detection; implementation of Generalized Isolation Forest is much slower due to lack of optimization.