License
Application of Big Data Technologies and Machine Learning in Enhancing the Understanding of Whales' Acoustic Communication: An Analysis Using the NOAA Database
Abstract (PL)
Praca ma na celu zbadanie zastosowania technologii Big Data oraz metod uczenia maszynowego do analizy nagrań odgłosów wydawanych przez wieloryby z bazy NOAA, co stanowi jedno z zagadnień badawczych o rosnącym znaczeniu w dziedzinie analizy dużych zbiorów danych akustycznych, pozyskiwanych w coraz większych ilościach, jakości i rozmiarze. Szczególny nacisk położono na interdyscyplinarny opis stosunkowo młodej dziedziny nauki - bioakustyki, głęboką analizę strukturalną bazy danych akustycznych NOAA oraz demonstrację przykładowego użycia technik przetwarzania sygnałów dźwiękowych i uczenia maszynowego do analizy i rozpoznawania dźwięków wielorybów. W pracy wykorzystano narzędzia takie jak Google Colab, Google Cloud Storage, TensorFlow, TensorFlow IO, Scikit-learn, Librosa, SoundFile, Matplotlib oraz NumPy do przetwarzania sygnałów dźwiękowych i analizy danych. Celem badania była demonstracja wkładu nowoczesnych technologii w rozwój bioakustyki, ocena bazy danych NOAA pod względem efektywności użytkowania oraz implementacja przykładowej sieci neuronowej do klasyfikacji dźwięków z tej bazy. Eksperymenty umożliwiły identyfikację dźwięków wielorybów z wykorzystaniem Mel-Frequency Cepstral Coefficients (MFCCs) oraz klasyfikatorów typu Multi-Layer Perceptron (MLP). Zastosowanie redukcji wymiarowości przy pomocy PCA oraz optymalizacji modelu za pomocą GridSearchCV umożliwiły precyzyjne dostosowanie parametrów modelu do specyfiki danych. Badania skupiały się na danych z projektu SanctSound, w formacie .wav. Wykazano, że rozwój bioakustyki znacząco przyspieszył dzięki zastosowaniu technologii AI i Big Data. Zidentyfikowano możliwe kierunki dalszego rozwoju bazy danych NOAA. Istotna jest współpraca międzynarodowa oraz centralizacja danych, w myśl koncepcji 'Internet of Animals'. Wyniki pracy z MLP wskazują na efektywność stosowanych metod w rozpoznawaniu dźwięków wielorybów, przy czym uzyskano dokładność najlepszego modelu na poziomie około 67%. Rezultaty te stanowią podstawę do formułowania rekomendacji dla przyszłych badań w dziedzinie zarządzania i analizy danych bioakustycznych. Praca wnosi wkład w rozwój metodyki badawczej w dziedzinie bioakustyki oraz rozwój technologii analizy dużych zbiorów danych akustycznych, co może mieć znaczący wpływ na dalsze badania w dziedzinie ochrony środowiska, biologii morskiej oraz technologii informacyjnych.
Abstract (EN)
This thesis aims to examine the application of Big Data technologies and machine learning methods in the context of data related to whale communication, which represents one of the currently growing research topics in the field of large-scale acoustic data analysis, increasingly collected in larger quantities, quality and size. Special emphasis was placed on the interdisciplinary description of the relatively young field of science - bioacoustics, an in-depth structural analysis of the NOAA acoustic data database, and a demonstration of the exemplary use of sound signal processing and machine learning techniques for analysing and recognizing whale sounds from this database. Tools such as Google Colab, Google Cloud Storage, TensorFlow, TensorFlow IO, Scikit-learn, Librosa, SoundFile, Matplotlib, and NumPy were utilised for sound signal processing and data analysis. The research aimed to investigate the contribution of modern technologies to the development of bioacoustics, evaluate the NOAA database in terms of usage efficiency, and implement an exemplary neural network for classifying sounds from this database. Experiments allowed for the identification of whale sounds using Mel-Frequency Cepstral Coefficients (MFCCs) and Multi-Layer Perceptron (MLP) classifiers. The use of dimensionality reduction via PCA and model optimization through GridSearchCV enabled precise adjustment of the model parameters to the specifics of the data. The study focused on data from the SanctSound project, in .wav format. Analyses showed that the development of bioacoustics has significantly accelerated due to the application of AI and Big Data technologies. Possible directions for further development of the NOAA database were identified. International cooperation and data centralization, in line with the 'Internet of Animals' concept, are essential. The results of the work with MLP indicate the effectiveness of the methods used in recognizing whale sounds, with the accuracy of the best model reaching about 67%. These results form the basis for formulating recommendations for future research in the field of management and analysis of bioacoustic data. The work contributes to the development of research methodology in the field of bioacoustics and the development of technology for analysing large data sets of acoustic data, which may have a significant impact on further research in the fields of environmental protection, marine biology, and information technology