Rozdział w monografii
Brak miniatury
Licencja

ClosedAccessDostęp zamknięty

Przestrzenne uczenie nienadzorowane

Autor
Kopczewska, Katarzyna
Data publikacji
2020
Abstrakt (PL)

Uczenie maszynowe nienadzorowane (Unsupervised Learning, USL) nie zakłada żadnego strukturalnego ani hierarchicznego uporządkowania danych wejściowych. Nie wyodrębnia się zmiennych objaśnianych ani objaśniających. Celem stosowania metod USL jest określenie struktury, rozkładu lub wspólnych cech charakterystycznych danych, co pozwala na lepsze ich zrozumienie. Podstawowymi algorytmami USL jest klastrowanie (grupowanie) oraz tworzenie związków (asocjacji). W zagadnieniach przestrzennych, gdy wykorzystywane są dane punktowe geolokalizowane w przestrzeni geograficznej (x,y) oraz ewentualnie przypisane im wartości cechy (z), następuje domyślna klasyfikacja zmiennych na koordynaty i charakterystyki. Z natury rzeczy, dane są w częściowo ustrukturalizowane - sprofilowane wykorzystując koordynaty lub wartości cech. Może istnieć kilka podejść do analizowania takich danych. Po pierwsze, możliwe jest grupowanie w odniesieniu wyłącznie do koordynat (x.y), gdzie poszukiwane są klastry przestrzenne punktów zlokalizowanych sąsiedzko – i dalej w ramach wyodrębnionych klastrów przestrzennych badane są cechy (z) punktów. Wykorzystywać tu można algorytmy kśrednich, PAM i CLARA (7.1) oparte na macierzy odległości czy statystykę DBSCAN (7.2) opartą na gęstości lokalizacji. Po drugie, możliwe jest grupowanie cech (z) w poszukiwaniu grup obserwacji podobnych wielowymiarowo – i dalej ich mapowanie w celu określenia, czy to podobieństwo cech przekłada się na sąsiedztwo przestrzenne. Wykorzystywać tu można przestrzenną analizę głównych składowych (7.3) czy dryf przestrzenny (7.4). Po trzecie możliwe jest podejście łączące grupowanie danych i klastrowanie przestrzenne - w oparciu o hierarchiczne klastrowanie z ograniczeniem przestrzennym (7.5) czy przestrzenne skośne drzewa decyzyjne (7.6). W tym rozdziale przedstawione zostaną te algorytmy. Rozdział pomija detekcję klastrów chorób (Spatial Clusters of Diseases), która bazuje na statystykach Openshaw GAM, Besag-Newell, Kulldorffa-Nagarwalla. W tym podejściu bada się liczbę przypadków (choroby, zgonów) w danym obszarze do populacji (i oczekiwanej liczby zdarzeń) na tym terenie. W testowaniu ich istotności wykorzystuje się permutację jak również rozkłady Multinomial, Poisson czy Poisson-Gamma. W R dostępne są pakiety DCluster::, smerc:: czy SpatialEpi::, które zawierają oprogramowane komendy dla tych metod. W rozdziale nie zostały także poruszone zagadnienia przestrzennej segregacji oprogramowane w R w pakietach seg:: i OasisR::. Dobrym uzupełnieniem tego rozdziału jest książka pt. The elements of statistical learning: data mining, inference, and prediction (Hastie, Tibshirani i Friedman, 2017), która w szczegółach omawia uczenie maszynowe nadzorowane i nienadzorowane, liniowe metody regresji, regularyzację, wygładzanie jądrowe, wybór modeli i walidację krzyżową, drzewa, sieci neuronowe, SVM, klastrowanie w oparciu o kryterium najbliższego sąsiedztwa, lasy losowe i modele graficzne – jednak głównie w odniesieniu do danych a-przestrzennych.

Słowa kluczowe PL
klastrowanie
PAM
DBSCAN
Przestrzenna Analiza Głównych Składowych
k-średnich
dryf przestrzenny
przestrzenne klastrowanie hierarchiczne
przestrzenne skośne drzewa decyzyjne
Dyscyplina PBN
ekonomia i finanse
Tytuł monografii
Przestrzenne metody ilościowe w R: statystyka, ekonometria, uczenie maszynowe, analiza danych
Strony od-do
465-528
Wydawca ministerialny
CeDeWu
Licencja otwartego dostępu
Dostęp zamknięty