Licencja
Linguistic Indicators of Bad Science: the Case of Replication Crisis in Psychology
Abstrakt (PL)
Kryzys replikacji rodzi poważne obawy dotyczące ścisłości i wiarygodności publikowanych badań naukowych. W związku z tym konieczny jest namysł nad tym, jak możemy zapobiegać powstawaniu niereplikowalnych badań, a także nad tym, jak można je wykrywać i oznaczać. Jest to niezbędne, aby psychologia naukowa opierała się na badaniach mających rzeczywistą, a nie tylko pozorną wartość naukową. W niniejszej pracy badam cechy językowe artykułów naukowych, których wyniki udało się zreplikować, w odróżnieniu od tych, które nie replikują się, aby odkryć potencjalne wskaźniki dyskusyjnych praktyk badawczych. Wykorzystując analizę wydźwięku, modele predykcyjne opracowane na drodze uczenia maszynowego i metryki czytelności tekstu, w pracy badam różnice wydźwięku i złożoności wyrażeń w tych tekstach w celu zidentyfikowania potencjalnie wadliwych badań. Analiza opiera się otwartoźródłowym narzędziu SEANCE, które zapewnia kompleksowe oceny wydźwięku i języka oraz wskaźniki zrozumiałości, takie jak Flesch-Kincaid, Gunning-Fog i inne. Kluczowym wynikiem jest to, że replikowalne badania częściej używają języka wskazującego na pewność i cechują się mniejszą złożonością, co ułatwia ich czytanie. Istotne znaczniki językowe niereplikujących się badań obejmują zwiększone użycie negatywnych przymiotników, słów związanych z radością i dobrostanem, a także komponentami zaufania i szacunku, co odpowiada cechom związanym z nadmierną pewnością siebie. Ponadto metryki zrozumiałości tekstu konsekwentnie pokazują, że badania niemożliwe do replikacji wymagają wyższego poziomu wykształcenia, co może odzwierciedlać strategię maskowania wad metodologicznych. Co więcej, zastosowano trzy modele uczenia maszynowego, z których dwa (wielowarstwowy perceptron i model regresji logistycznej) były w stanie przewidzieć replikowalność badania z dokładnością 78% w oparciu wyłącznie o istotne składowe analizy sentymentu SEANCE. Wszystkie te wyniki sugerują, że wzorce językowe w piśmiennictwie naukowym mogą służyć jako wczesny system ostrzegawczy do identyfikacji badań potencjalnie grożących brakiem możliwością replikacji. Może to później służyć jako potencjalne narzędzie do poprawy przejrzystości naukowej, wspomagania systemów recenzji i zwiększania ścisłości w badaniach naukowych w psychologii.
Abstrakt (EN)
It is obvious that the replication crisis is raising serious concerns about the rigidity and reliability of the published scientific studies. As such, we need to start asking what we can do to prevent, detect and flag such scientific studies in order for the psychological science to be based on replicable studies with merit. Following this reasoning, this thesis investigates the linguistic characteristics of scientific articles that report successfully replicated findings versus those that fail to replicate, aiming to uncover potential indicators of questionable research practices. Employing sentiment analysis, a machine learning prediction model, and text readability metrics, this thesis explores differences in sentiment and complexity expressed in these texts in order to potentially flag “faulty” studies. The analysis utilized an open-source tool, SEANCE, which offers comprehensive sentiment and linguistic assessments, as well as readability indices like Flesch-Kincaid, Gunning-Fog, and others. Key findings reveal that replicated studies tend to use more language indicative of certainty and tend to have less complex texts, allowing for easier readability. Significant linguistic markers associated with nonreplicable studies include increased use of negative adjectives, joy and well-being words, as well as trust and respect components, aligning with traits linked to overconfidence. Additionally, readability metrics consistently showed that nonreplicable studies require a higher level of general literacy to understand, possibly reflecting a strategy to obscure methodological flaws. Moreover, three machine learning models were applied, two of which (multi-layer perceptron and logistic regression) were able to predict the replicability of a study with the accuracy of 78% based only on significant components of the SEANCE sentiment analysis. All these findings suggest that language patterns in academic writing could serve as an early warning to identify studies which stand at risk of nonreplicability. This could later serve as a potential tool for improving scientific transparency, aiding in peer reviews, leading to more rigor in psychological scientific studies.