New shape descriptors for Topological Data Analysis

Autor
Gurnari, Davide
Promotor
DƂotko, PaweƂ
Data publikacji
2025-03-12
Abstrakt (PL)

Niniejsza rozprawa przedstawia zbiĂłr nowych narzędzi obliczeniowych dla Topologicznej Analizy Danych (TDA). Są one wydajnymi obliczeniowo metodami będącymi odpowiedzią na kluczowe wyzwania w dyscyplinie i znajdującymi zastosowania do rozwiązywania rzeczywistych problemach z rĂłĆŒnych dziedzin. Pierwsza częƛć rozprawy koncentruje się na opracowaniu nowych cech ksztaƂtu danych wzorowanych na idei persistent homology. OmĂłwimy w niej koncepcje krzywych charakterystyki Eulera i wprowadzimy ich uogĂłlnienie na wieloparametrowe filtracje w postaci profili charakterystyki Eulera. Pokazujemy, ĆŒe zaproponowane charakterystyki posiadają wƂasnoƛć stabilnoƛci ze względu na perturbację danych wejƛciowych. To sprawia, ĆŒe są one wydajną i stabilną alternatywą dla szeroko stosowanych persistent homology. Następnie rozwaĆŒamy problem odwzorowania informacji z persistent homology z powrotem do danych wejƛciowych, na podstawie ktĂłrych zostaƂy one obliczone. Przedstawiamy rozwiązanie oparte na koncepcji homologii harmonicznych gdzie waga kaĆŒdego sympleksu w ƂaƄcuchu jest związana z jego względnym wkƂadem w rozwaĆŒaną cechę topologiczną. Druga częƛć rozprawy wprowadza nowe algorytmy wykorzystywane do wizualizacji danych, rozszerzając zarĂłwno standardową konstrukcję Mappera, jak i nowszy algorytm Ball Mapper. Proponowane przez nas konstrukcje pozwalają uzyskać graf Ball Mappera zachowujący znane symetrie danych wejƛciowych. Ponadto prezentujemy wersję Mappera, ktĂłra umoĆŒliwia wykorzystanie wielowymiarowych lens functions oraz technikę wizualizacji relacji między rĂłĆŒnymi wielowymiarowymi cechami tych samych danych. Przedstawimy zastosowanie tych metod w matematyce teoretycznej, do badania struktury wielomianĂłw wykorzystywanych w teorii węzƂów do charakteryzacji węzƂów. Na koƄcu przedstawiamy algorytm ClusterGraph, ktĂłry Ƃączy techniki klastrowania i redukcji wymiarowoƛci, zapewniając nowy sposĂłb wizualizacji zarĂłwno lokalnej, jak i globalnej struktury wielowymiarowych zbiorĂłw danych. Wszystkie omĂłwione w tej rozprawie koncepcje i narzędzia są zaimplementowane w postaci ogĂłlnodostępnych pakietĂłw i ich implementacja stanowi waĆŒną częƛć niniejszej rozprawy. UmoĆŒliwia ona praktyczne zastosowanie omawianych metod dla szerokiego zakresu rzeczywistych zbiorĂłw danych.

Abstrakt (EN)

This thesis presents a collection of new tools for topological data analysis (TDA), addressing key challenges in terms of computational efficiency, interpretability, and applicability to real-world problems across various domains. The first part of the thesis focuses on developing new persistence-based shape descriptors. We start with Euler characteristic curves and introduce their generalization to multiparameter filtrations, the Euler characteristic profiles. We show that these descriptors enjoy some kind of stability with respect to perturbations of the input data, which makes them efficient and stable alternatives to the widely used persistent homology barcodes. We then consider the problem of mapping back the information from persistence barcodes to the data they were computed from. We present a solution based on harmonic representatives and link the weight of each simplex in an harmonic chain to its relative contribution to the existence of the corresponding topological feature. The second part of the thesis introduces new mapper-type algorithms for data visualization, by expanding on both the standard Mapper construction as well as the more recent Ball Mapper. We propose an equivariant Ball Mapper, which leverages group actions on the data; a version of Mapper which enables the use of high-dimensional lens functions, and a technique to visualize relations between different data descriptors. These methods are applied to study the topology of polynomial invariants of knots, leading to new insights in theoretical mathematics. Finally, we introduce ClusterGraph, a framework that bridges clustering and dimensionality reduction techniques, providing a novel way to visualize both the local and global structure of high-dimensional datasets. We provide implementations of all the tools and methods presented in this thesis, and show practical applicability of them on a wide range of real-world datasets.

SƂowa kluczowe PL
Topologiczna analiza danych (TDA)
trwaƂa homologia
algorytm mapowania
krzywe charakterystyczne Eulera
deskryptory ksztaƂtu
wizualizacja danych
dane wielowymiarowe
nauka o danych
uczenie maszynowe
geometria obliczeniowa
topologia obliczeniowa
Inny tytuƂ
Nowe deskryptory ksztaƂtu do Typologicznej Analizy Danych
Data obrony
2025-04-10
Licencja otwartego dostępu
Dostęp zamknięty