Licencja
Gender differences in early mother-infant interaction - semantic analysis
Abstrakt (PL)
Interakcja między matką a niemowlęciem ma wpływ na rozwój dziecka i odgrywa kluczową rolę we wczesnym nabywaniu języka. Badania pokazują, że te interakcje mogą się różnić w zależności od płci dziecka. Niniejsza praca bada różnice płciowe w mowie skierowanej do niemowląt (infant-directed speech, IDS), ze szczególnym uwzględnieniem semantyki. Praca rozpoczyna się od szczegółowego przeglądu literatury na temat różnic płciowych zarówno w mowie dzieci, jak i mowie skierowanej do dzieci. Dodatkowo zawiera przegląd dużych modeli językowych (large language models, LLMs), ze szczególnym naciskiem na model BERT (Bidirectional Encoder Representations from Transformers). Część eksperymentalna obejmuje fine-tuning HerBERTa, polskiego modelu opartego na BERT, na danych IDS w celu przewidzenia płci dziecka. Praca wykorzystuje transkrypcje 14 diad matka-niemowlę (7 dziewczynek, 7 chłopców) podczas swobodnych sesji zabaw, nagrywanych w wieku 2, 3, 8, 10 i 12 miesięcy. Po wstępnym przetworzeniu danych, utworzono pięć odrębnych zestawów danych wykorzystanych do treningu modelu. Najwyższą wydajność modelu zaobserwowano podczas wykorzystania danych, w których wypowiedzi matki były ze sobą łączone, gdy następowały po sobie krócej niż po 1 sekundzie (dokładność na poziomie 0,789). Z kolei lematyzacja danych i usunięcie słów wskazujących na płeć (np. „dziewczynka”, „syn”), określanych jako słowa markerowe, doprowadziły do znacznego spadku wydajności modelu, z dokładnością poniżej 50%. Wyniki sugerują, że istnieją różnice płciowe w IDS, które model jest w stanie wykryć, aby przewidzieć płeć dziecka. Jednak spadek dokładności po lematyzacji i usunięciu słów markerowych wskazuje, że model opiera się bardziej na formach słów niż na ich znaczeniu.
Abstrakt (EN)
Mother-infant interaction has an impact on child development and plays a crucial role in shaping early language acquisition. Studies show that these interactions can be different depending on the child’s sex/gender. This thesis examines gender differences in Infant-Directed Speech (IDS), with a specific emphasis on semantic content. The study begins with a thorough review of existing literature on gender differences in both child speech and Child-Directed Speech (CDS). Additionally, it includes an overview of large language models (LLMs), with a focus on the BERT (Bidirectional Encoder Representations from Transformers) model. The experimental section involves fine-tuning HerBERT, a Polish BERT-based model, on IDS data to predict the child's gender. The study utilizes transcriptions from 14 mother-infant dyads (7 female, 7 male) during free play sessions recorded at 2, 3, 8, 10, and 12 months. After preprocessing, five distinct datasets were created for model fine-tuning. The best model performance was observed when fine-tuning on a dataset with concatenated utterances when they were in less than 1s proximity, resulting in an accuracy of 0.789. Conversely, data lemmatization and removing gender-specific words (e.g., girl, son), referred to as marker words, led to a significant decline in model performance, with accuracy dropping below 50% The results suggest that gender differences in IDS do exist and can be detected by the model to accurately predict the child's gender. However, the drop in accuracy following lemmatization and marker word removal indicates that the model relies more on word forms rather than the underlying semantic meaning of the text.