Linguistic Indicators of Bad Science: the Case of Replication Crisis in Psychology

Krivokapić, Sofija

Praca magisterska

Licencja

Dostęp zamknięty

Linguistic Indicators of Bad Science: the Case of Replication Crisis in Psychology

dc.abstract.en	It is obvious that the replication crisis is raising serious concerns about the rigidity and reliability of the published scientific studies. As such, we need to start asking what we can do to prevent, detect and flag such scientific studies in order for the psychological science to be based on replicable studies with merit. Following this reasoning, this thesis investigates the linguistic characteristics of scientific articles that report successfully replicated findings versus those that fail to replicate, aiming to uncover potential indicators of questionable research practices. Employing sentiment analysis, a machine learning prediction model, and text readability metrics, this thesis explores differences in sentiment and complexity expressed in these texts in order to potentially flag “faulty” studies. The analysis utilized an open-source tool, SEANCE, which offers comprehensive sentiment and linguistic assessments, as well as readability indices like Flesch-Kincaid, Gunning-Fog, and others. Key findings reveal that replicated studies tend to use more language indicative of certainty and tend to have less complex texts, allowing for easier readability. Significant linguistic markers associated with nonreplicable studies include increased use of negative adjectives, joy and well-being words, as well as trust and respect components, aligning with traits linked to overconfidence. Additionally, readability metrics consistently showed that nonreplicable studies require a higher level of general literacy to understand, possibly reflecting a strategy to obscure methodological flaws. Moreover, three machine learning models were applied, two of which (multi-layer perceptron and logistic regression) were able to predict the replicability of a study with the accuracy of 78% based only on significant components of the SEANCE sentiment analysis. All these findings suggest that language patterns in academic writing could serve as an early warning to identify studies which stand at risk of nonreplicability. This could later serve as a potential tool for improving scientific transparency, aiding in peer reviews, leading to more rigor in psychological scientific studies.
dc.abstract.pl	Kryzys replikacji rodzi poważne obawy dotyczące ścisłości i wiarygodności publikowanych badań naukowych. W związku z tym konieczny jest namysł nad tym, jak możemy zapobiegać powstawaniu niereplikowalnych badań, a także nad tym, jak można je wykrywać i oznaczać. Jest to niezbędne, aby psychologia naukowa opierała się na badaniach mających rzeczywistą, a nie tylko pozorną wartość naukową. W niniejszej pracy badam cechy językowe artykułów naukowych, których wyniki udało się zreplikować, w odróżnieniu od tych, które nie replikują się, aby odkryć potencjalne wskaźniki dyskusyjnych praktyk badawczych. Wykorzystując analizę wydźwięku, modele predykcyjne opracowane na drodze uczenia maszynowego i metryki czytelności tekstu, w pracy badam różnice wydźwięku i złożoności wyrażeń w tych tekstach w celu zidentyfikowania potencjalnie wadliwych badań. Analiza opiera się otwartoźródłowym narzędziu SEANCE, które zapewnia kompleksowe oceny wydźwięku i języka oraz wskaźniki zrozumiałości, takie jak Flesch-Kincaid, Gunning-Fog i inne. Kluczowym wynikiem jest to, że replikowalne badania częściej używają języka wskazującego na pewność i cechują się mniejszą złożonością, co ułatwia ich czytanie. Istotne znaczniki językowe niereplikujących się badań obejmują zwiększone użycie negatywnych przymiotników, słów związanych z radością i dobrostanem, a także komponentami zaufania i szacunku, co odpowiada cechom związanym z nadmierną pewnością siebie. Ponadto metryki zrozumiałości tekstu konsekwentnie pokazują, że badania niemożliwe do replikacji wymagają wyższego poziomu wykształcenia, co może odzwierciedlać strategię maskowania wad metodologicznych. Co więcej, zastosowano trzy modele uczenia maszynowego, z których dwa (wielowarstwowy perceptron i model regresji logistycznej) były w stanie przewidzieć replikowalność badania z dokładnością 78% w oparciu wyłącznie o istotne składowe analizy sentymentu SEANCE. Wszystkie te wyniki sugerują, że wzorce językowe w piśmiennictwie naukowym mogą służyć jako wczesny system ostrzegawczy do identyfikacji badań potencjalnie grożących brakiem możliwością replikacji. Może to później służyć jako potencjalne narzędzie do poprawy przejrzystości naukowej, wspomagania systemów recenzji i zwiększania ścisłości w badaniach naukowych w psychologii.
dc.affiliation	Uniwersytet Warszawski
dc.affiliation.department	Wydział Psychologii
dc.contributor.author	Krivokapić, Sofija
dc.date.accessioned	2025-01-09T12:44:02Z
dc.date.available	2025-01-09T12:44:02Z
dc.date.defence	2024-12-19
dc.date.issued	2024
dc.date.submitted	2024-12-05
dc.description.promoter	Miłkowski, Marcin
dc.description.promoter	Zubek, Julian
dc.description.reviewer	Miłkowski, Marcin
dc.description.reviewer	Maćkiewicz, Bartosz
dc.identifier.apd	235335
dc.identifier.uri	https://repozytorium.uw.edu.pl//handle/item/162489
dc.language	en
dc.language.other	pl
dc.publisher	Uniwersytet Warszawski
dc.rights	ClosedAccess
dc.subject.en	Sentiment analysis
dc.subject.en	scientific reproducibility
dc.subject.en	scientific replication
dc.subject.en	text analysis
dc.subject.en	text readability scores
dc.subject.en	machine learning
dc.subject.en	classification
dc.subject.pl	Analiza wydźwięku
dc.subject.pl	powtarzalność badań naukowych
dc.subject.pl	replikacja badań naukowych
dc.subject.pl	analiza tekstu
dc.subject.pl	wskaźniki czytelności tekstu
dc.subject.pl	uczenie maszynowe
dc.subject.pl	klasyfikacja
dc.title	Linguistic Indicators of Bad Science: the Case of Replication Crisis in Psychology
dc.title.alternative	Językowe wskaźniki miernej nauki: Przypadek kryzysu replikacyjnego w psychologii
dc.type	MasterThesis
dspace.entity.type	Publication

Licencja

Linguistic Indicators of Bad Science: the Case of Replication Crisis in Psychology

Opcje