Praca magisterska
Brak miniatury
Licencja

ClosedAccessDostęp zamknięty
 

Linguistic Indicators of Bad Science: the Case of Replication Crisis in Psychology

Uproszczony widok
dc.abstract.enIt is obvious that the replication crisis is raising serious concerns about the rigidity and reliability of the published scientific studies. As such, we need to start asking what we can do to prevent, detect and flag such scientific studies in order for the psychological science to be based on replicable studies with merit. Following this reasoning, this thesis investigates the linguistic characteristics of scientific articles that report successfully replicated findings versus those that fail to replicate, aiming to uncover potential indicators of questionable research practices. Employing sentiment analysis, a machine learning prediction model, and text readability metrics, this thesis explores differences in sentiment and complexity expressed in these texts in order to potentially flag “faulty” studies. The analysis utilized an open-source tool, SEANCE, which offers comprehensive sentiment and linguistic assessments, as well as readability indices like Flesch-Kincaid, Gunning-Fog, and others. Key findings reveal that replicated studies tend to use more language indicative of certainty and tend to have less complex texts, allowing for easier readability. Significant linguistic markers associated with nonreplicable studies include increased use of negative adjectives, joy and well-being words, as well as trust and respect components, aligning with traits linked to overconfidence. Additionally, readability metrics consistently showed that nonreplicable studies require a higher level of general literacy to understand, possibly reflecting a strategy to obscure methodological flaws. Moreover, three machine learning models were applied, two of which (multi-layer perceptron and logistic regression) were able to predict the replicability of a study with the accuracy of 78% based only on significant components of the SEANCE sentiment analysis. All these findings suggest that language patterns in academic writing could serve as an early warning to identify studies which stand at risk of nonreplicability. This could later serve as a potential tool for improving scientific transparency, aiding in peer reviews, leading to more rigor in psychological scientific studies.
dc.abstract.plKryzys replikacji rodzi poważne obawy dotyczące ścisłości i wiarygodności publikowanych badań naukowych. W związku z tym konieczny jest namysł nad tym, jak możemy zapobiegać powstawaniu niereplikowalnych badań, a także nad tym, jak można je wykrywać i oznaczać. Jest to niezbędne, aby psychologia naukowa opierała się na badaniach mających rzeczywistą, a nie tylko pozorną wartość naukową. W niniejszej pracy badam cechy językowe artykułów naukowych, których wyniki udało się zreplikować, w odróżnieniu od tych, które nie replikują się, aby odkryć potencjalne wskaźniki dyskusyjnych praktyk badawczych. Wykorzystując analizę wydźwięku, modele predykcyjne opracowane na drodze uczenia maszynowego i metryki czytelności tekstu, w pracy badam różnice wydźwięku i złożoności wyrażeń w tych tekstach w celu zidentyfikowania potencjalnie wadliwych badań. Analiza opiera się otwartoźródłowym narzędziu SEANCE, które zapewnia kompleksowe oceny wydźwięku i języka oraz wskaźniki zrozumiałości, takie jak Flesch-Kincaid, Gunning-Fog i inne. Kluczowym wynikiem jest to, że replikowalne badania częściej używają języka wskazującego na pewność i cechują się mniejszą złożonością, co ułatwia ich czytanie. Istotne znaczniki językowe niereplikujących się badań obejmują zwiększone użycie negatywnych przymiotników, słów związanych z radością i dobrostanem, a także komponentami zaufania i szacunku, co odpowiada cechom związanym z nadmierną pewnością siebie. Ponadto metryki zrozumiałości tekstu konsekwentnie pokazują, że badania niemożliwe do replikacji wymagają wyższego poziomu wykształcenia, co może odzwierciedlać strategię maskowania wad metodologicznych. Co więcej, zastosowano trzy modele uczenia maszynowego, z których dwa (wielowarstwowy perceptron i model regresji logistycznej) były w stanie przewidzieć replikowalność badania z dokładnością 78% w oparciu wyłącznie o istotne składowe analizy sentymentu SEANCE. Wszystkie te wyniki sugerują, że wzorce językowe w piśmiennictwie naukowym mogą służyć jako wczesny system ostrzegawczy do identyfikacji badań potencjalnie grożących brakiem możliwością replikacji. Może to później służyć jako potencjalne narzędzie do poprawy przejrzystości naukowej, wspomagania systemów recenzji i zwiększania ścisłości w badaniach naukowych w psychologii.
dc.affiliationUniwersytet Warszawski
dc.affiliation.departmentWydział Psychologii
dc.contributor.authorKrivokapić, Sofija
dc.date.accessioned2025-01-09T12:44:02Z
dc.date.available2025-01-09T12:44:02Z
dc.date.defence2024-12-19
dc.date.issued2024
dc.date.submitted2024-12-05
dc.description.promoterMiłkowski, Marcin
dc.description.promoterZubek, Julian
dc.description.reviewerMiłkowski, Marcin
dc.description.reviewerMaćkiewicz, Bartosz
dc.identifier.apd235335
dc.identifier.urihttps://repozytorium.uw.edu.pl//handle/item/162489
dc.languageen
dc.language.otherpl
dc.publisherUniwersytet Warszawski
dc.rightsClosedAccess
dc.subject.enSentiment analysis
dc.subject.enscientific reproducibility
dc.subject.enscientific replication
dc.subject.entext analysis
dc.subject.entext readability scores
dc.subject.enmachine learning
dc.subject.enclassification
dc.subject.plAnaliza wydźwięku
dc.subject.plpowtarzalność badań naukowych
dc.subject.plreplikacja badań naukowych
dc.subject.planaliza tekstu
dc.subject.plwskaźniki czytelności tekstu
dc.subject.pluczenie maszynowe
dc.subject.plklasyfikacja
dc.titleLinguistic Indicators of Bad Science: the Case of Replication Crisis in Psychology
dc.title.alternativeJęzykowe wskaźniki miernej nauki: Przypadek kryzysu replikacyjnego w psychologii
dc.typeMasterThesis
dspace.entity.typePublication