New shape descriptors for Topological Data Analysis
ORCID
Abstrakt (PL)
Niniejsza rozprawa przedstawia zbiĂłr nowych narzÄdzi obliczeniowych dla Topologicznej Analizy Danych (TDA). SÄ one wydajnymi obliczeniowo metodami bÄdÄ cymi odpowiedziÄ na kluczowe wyzwania w dyscyplinie i znajdujÄ cymi zastosowania do rozwiÄ zywania rzeczywistych problemach z rĂłĆŒnych dziedzin. Pierwsza czÄĆÄ rozprawy koncentruje siÄ na opracowaniu nowych cech ksztaĆtu danych wzorowanych na idei persistent homology. OmĂłwimy w niej koncepcje krzywych charakterystyki Eulera i wprowadzimy ich uogĂłlnienie na wieloparametrowe filtracje w postaci profili charakterystyki Eulera. Pokazujemy, ĆŒe zaproponowane charakterystyki posiadajÄ wĆasnoĆÄ stabilnoĆci ze wzglÄdu na perturbacjÄ danych wejĆciowych. To sprawia, ĆŒe sÄ one wydajnÄ i stabilnÄ alternatywÄ dla szeroko stosowanych persistent homology. NastÄpnie rozwaĆŒamy problem odwzorowania informacji z persistent homology z powrotem do danych wejĆciowych, na podstawie ktĂłrych zostaĆy one obliczone. Przedstawiamy rozwiÄ zanie oparte na koncepcji homologii harmonicznych gdzie waga kaĆŒdego sympleksu w ĆaĆcuchu jest zwiÄ zana z jego wzglÄdnym wkĆadem w rozwaĆŒanÄ cechÄ topologicznÄ . Druga czÄĆÄ rozprawy wprowadza nowe algorytmy wykorzystywane do wizualizacji danych, rozszerzajÄ c zarĂłwno standardowÄ konstrukcjÄ Mappera, jak i nowszy algorytm Ball Mapper. Proponowane przez nas konstrukcje pozwalajÄ uzyskaÄ graf Ball Mappera zachowujÄ cy znane symetrie danych wejĆciowych. Ponadto prezentujemy wersjÄ Mappera, ktĂłra umoĆŒliwia wykorzystanie wielowymiarowych lens functions oraz technikÄ wizualizacji relacji miÄdzy rĂłĆŒnymi wielowymiarowymi cechami tych samych danych. Przedstawimy zastosowanie tych metod w matematyce teoretycznej, do badania struktury wielomianĂłw wykorzystywanych w teorii wÄzĆĂłw do charakteryzacji wÄzĆĂłw. Na koĆcu przedstawiamy algorytm ClusterGraph, ktĂłry ĆÄ czy techniki klastrowania i redukcji wymiarowoĆci, zapewniajÄ c nowy sposĂłb wizualizacji zarĂłwno lokalnej, jak i globalnej struktury wielowymiarowych zbiorĂłw danych. Wszystkie omĂłwione w tej rozprawie koncepcje i narzÄdzia sÄ zaimplementowane w postaci ogĂłlnodostÄpnych pakietĂłw i ich implementacja stanowi waĆŒnÄ czÄĆÄ niniejszej rozprawy. UmoĆŒliwia ona praktyczne zastosowanie omawianych metod dla szerokiego zakresu rzeczywistych zbiorĂłw danych.
Abstrakt (EN)
This thesis presents a collection of new tools for topological data analysis (TDA), addressing key challenges in terms of computational efficiency, interpretability, and applicability to real-world problems across various domains. The first part of the thesis focuses on developing new persistence-based shape descriptors. We start with Euler characteristic curves and introduce their generalization to multiparameter filtrations, the Euler characteristic profiles. We show that these descriptors enjoy some kind of stability with respect to perturbations of the input data, which makes them efficient and stable alternatives to the widely used persistent homology barcodes. We then consider the problem of mapping back the information from persistence barcodes to the data they were computed from. We present a solution based on harmonic representatives and link the weight of each simplex in an harmonic chain to its relative contribution to the existence of the corresponding topological feature. The second part of the thesis introduces new mapper-type algorithms for data visualization, by expanding on both the standard Mapper construction as well as the more recent Ball Mapper. We propose an equivariant Ball Mapper, which leverages group actions on the data; a version of Mapper which enables the use of high-dimensional lens functions, and a technique to visualize relations between different data descriptors. These methods are applied to study the topology of polynomial invariants of knots, leading to new insights in theoretical mathematics. Finally, we introduce ClusterGraph, a framework that bridges clustering and dimensionality reduction techniques, providing a novel way to visualize both the local and global structure of high-dimensional datasets. We provide implementations of all the tools and methods presented in this thesis, and show practical applicability of them on a wide range of real-world datasets.