Brain Tumor Detection with Capsule Neural Networks
Brain Tumor Detection with Capsule Neural Networks
Abstrakt (PL)
Sztuczna inteligencja (SI) jest coraz częściej wykorzystywana jako element systemów wspomagania decyzji klinicznych, takich jak oprogramowanie analizujące obrazy rezonansu magnetycznego (MRI). Większość z nich opiera się na konwolucyjnych sieciach neuronowych (CNN), u których występują jednak trudności z zachowowywaniem informacji o ułożeniu obiektów oraz relacjach przestrzennych między nimi. W teorii są to cechy kluczowe dla prawidłowej diagnozy. Celem niniejszej pracy było zbadanie, czy kapsułowe sieci neuronowe (CapsNet) zapewniają znaczącą przewagę nad modelami CNN w klasyfikacji guzów mózgu na obrazach MRI – zarówno pod względem wskaźników klasyfikacyjnych, efektywności obliczeniowej i aspektów etycznych. Efficient-CapsNet, który został zbadany w tej pracy, jest modelem opartym na architekturze kapsułowej. Cechuje się niską złożonością obliczeniową oraz możliwością zachowywania relacji przestrzennych, charakterystyczną dla modeli CapsNet. Został on porównany z siedmioma popularnymi architekturami CNN. Proces eksperymentalny został zaprojektowany w sposób ujednolicający wstępną obróbkę danych właściwą dla każdego modelu, trenowanie oraz ewaluację. Każdy z modeli został wytrenowany oraz poddany ocenie na zbiorze danych zawierającym 33676 skanów MRI należących do dziesięciu klas. Do zbieranych metryk klasyfikacyjnych należały dokładność (accuracy), czułość (recall), precyzja (precision) oraz F1-score. W celu oceny względnej złożoności obliczeniowej zgromadzone zostały dane o zużyciu pamięci VRAM, miliardach operacji zmiennoprzecinkowych wykonywanych na sekundę (GFLOPs) oraz czasach reakcji modelu podczas inferencji. Do analizy zachowania modeli oraz różnic w ich wydajności wykorzystano wizualizacje Grad-CAM oraz testy statystyczne, w tym test t-Studenta dla prób niezależnych, korelację Pearsona i korelację Spearmana. Model Efficient-CapsNet nie wykazał przewagi nad porównywanymi modelami CNN w kontekście metryk klasyfikacyjnych, zwłaszcza dla klas zawierających niewielką liczbę obrazów. Charakteryzował się również względnie wyższym kosztem obliczeniowym w porównaniu z pozostałymi modelami. Analiza Grad-CAM wykazała jednak, że wszystkie modele – również Efficient-CapsNet – częściowo opierały proces decyzyjny na nieanatomicznych artefaktach znajdujących się na obrazach MRI. Fakt ten wzbudza wątpliwości dotyczące uczenia skrótowego oraz uogólnialności modeli na zewnętrznych zbiorach danych. Mimo to wyniki potwierdzają, że detekcja guzów mózgu przy pomocy modeli CapsNet jest wykonalna, aczkolwiek ich przewaga nad zoptymalizowanymi modelami CNN, na obecnym etapie rozwoju, jest wątpliwa. Wskazują one również na potrzebę stosowania bardziej rzetelnych i reprezentatywnych zbiorów danych oraz przeprowadzania niezależnej walidacji. Wdrażanie systemów SI do neuroonkologii wymaga więc nie tylko coraz bardziej zaawansowanych modeli, ale również uważnego namysłu nad ich kosztami obliczeniowymi, wymogami regulacyjnymi i konsekwencjami etycznymi.
Abstrakt (EN)
Artificial intelligence is increasingly used to support radiological workflows, yet the architectures deployed in clinical decision support systems remain dominated by convolutional neural networks (CNN). They struggle to preserve spatial hierarchies and pose information, which are critical for brain tumor identification. This thesis examines whether capsule neural networks (CapsNets), which encode spatial relationships between features, provide a meaningful advantage over state-of-the-art CNNs for multi-class brain tumor classification on scans obtained with magnetic resonance imaging (MRI), while remaining computationally and ethically acceptable. Efficient-CapsNet – a lightweight capsule-based architecture capable of preserving spatial hierarchies – was trained on an augmented dataset of 33 676 MRI scans from ten classes (nine tumor types and no-tumor, spanning T1, T1c+ and T2 sequences) and compared with seven popular CNN architectures: ResNet50, AlexNet, DenseNet169, EfficientNetB1, NASNetMobile, MobileNetV2 and MobileNetV3Small. The experimental pipeline was designed to standardize model-specific preprocessing, training and evaluation. The collected metrics were: per-class accuracy, precision, recall and F1-score, together with per-model VRAM usage, floating point operations per second in billions (GFLOPs) and inference latency. Grad-CAM visualizations and statistical tests were used to analyze model behavior and performance differences. Efficient-CapsNet did not outperform contemporary CNNs on any key metric and was significantly inferior to EfficientNetB1 and the MobileNet variants, particularly for rare tumor classes, while also having a higher relative computational cost than all other CNNs. Grad-CAM analysis suggested that all models, including Efficient-CapsNet, partly relied on non-anatomical artefacts, raising concerns about spurious shortcut learning and generalizability. The findings confirm the feasibility of capsule-based brain tumor detection but call into question its current advantage over optimized CNNs. They highlight the need for more robust datasets, external validation and careful consideration of computational, regulatory and ethical constraints when integrating AI into neuro-oncological practice.
Wykrywanie guzów mózgu przy pomocy kapsułowych sieci neuronowych