Klasyczne oraz bayesowskie testowanie hipotez na przykładzie porównań dwóch grup w badaniach psychologicznych
Abstrakt (PL)
Głównym celem rozprawy było zbadanie zgodności decyzji sugerowanych przez dwa podejścia do testowania hipotez statystycznych tj. podejście bayesowskie i klasyczne (rozumiane jako testowanie istotności statystycznej hipotezy zerowej, null significance hypothesis testing, NHST) z udziałem danych pochodzących z rozkładu innego niż normalny. Jeśli badacz statystyki klasycznej otrzyma decyzję o przyjęciu hipotezy zerowej, to czy tę samą decyzję podejmie badacz statystyki bayesowskiej? Schemat badawczym, jaki wybrano, było porównanie między dwiema grupami. Narzędziem w podejściu klasycznym stanowiła p-wartość testu t-Studenta dla prób niezależnych. Zaś w podejściu bayesowskim ― czynnik Bayesa BF10. Formuła wzoru czynnika Bayesa BF10 przewiduje włączenie uprzedniej wiedzy badacza wyrażonej za pomocą rozkładów apriorycznych. Wobec tego, w badaniu wykorzystano trzy rozkłady wyrażające intuicję badacza odnośnie zjawiska (dwa zwane informatywnymi i jeden nieinformatywny). Pierwszy z rozkładów odpowiadał sytuacji, w której intuicja badacza nie była zgodna z rzeczywistością. Drugi reprezentował wiedzę błędną, badacz mylił się odnośnie zjawiska. Trzeci z rozkładów wyrażał niewiedzę badacza na temat zjawiska. Dane generowano z rozkładu skośnego - gaussowskiego modyfikowanego wykładniczo (ex-Gaussowskiego) - pojawiającego się w badaniach psychologicznych. Modelowano nim zmienną kod moralny troski – konstrukt teoretyczny zaczerpnięty z teorii fundamentów Haidta. Obok badania zgodności, przedmiotem badań był poziom błędów I-go i II-go rodzaju dla obu podejść i ich wzajemna zależność. Porównania służyły do oceny nadrzędności jednego z podejść w obrębie wybranego schematu oraz dla rozkładów skośnych. Za pomocą symulacji komputerowych dane generowano zarówno z rozkładu teoretycznego, jak i z rozkładu empirycznego pochodzącego z wcześniejszych badań. Manipulowano również wielkością efektu d Cohena (d = 0; 0,2; 0,5; 0,8) oraz wielkością próby (n =10, 20, 30, 40, 50, 100, 150, 200, 300). Analizy pokazały, że odsetek zgodności decyzji p-wartości i czynnika Bayesa BF10 zależy od wielkości efektu, wielkości próby, ale też i od rodzaju prawdopodobieństwa apriorycznego. Dla prawdopodobieństwa apriorycznego reprezentującego wiedzę badacza zgodną z rzeczywistością, pełna zgodność między testowaniem klasycznym a bayesowskim jest osiągana dla prób około 200 obserwacji, gdy wielkość efektu jest równa d Cohena 0,8 a także dla prób wielkości 300 obserwacji, gdy wielkość d Cohena wynosi 0,5. Dla wielkości efektu d Cohena równej 0,2 zbadana próba musi liczyć co najmniej 600 osób (dokładna wartość nie została wyznaczona ze względu na ograniczenia obliczeniowe sprzętu). Okazało się również, że pełna zgodność między narzędziami jest osiągana, gdy moc testu t-Studenta była bardzo duża (powyżej 90%). W kontekście błędów I-go i II-go rodzaju podejście bayesowskie przewyższa klasyczne, o ile w konstrukcji czynnika Bayesa BF10 użyto prawdopodobieństw apriorycznych informatywnych.Mniejsze znaczenie miało to, czy rozkład opisujący uprzednią wiedzę badacza, był rozkładem apriorycznym zgodnym z rzeczywistym kierunkiem zależności (badacz nie myli się), czy błędnym (badacz ma błędną intuicję). Czynnik Bayesa BF10, do którego włączono prawdopodobieństwo aprioryczne nieinformatywne, osiąga o wiele gorsze rezultaty, faworyzując hipotezę zerową, co przekłada się zarówno na mniejszą zgodność, jak i zwiększony błąd II-go rodzaju. Wyniki pokazały, że badacz może otrzymać różne decyzje stosując podejście bayesowskie i klasyczne. Podejście bayesowskie popełnia mniej błędów obu rodzajów, a ponadto oferuje badaczowi ocenę wsparcia hipotezy przez dane. Warto więc zmienić sposób myślenia o statystyce jako o zbiorze narzędzi do dychotomicznej decyzji między przyjęciem a odrzuceniem hipotezy zerowej.
Abstrakt (EN)
The purpose of the dissertation was to test the consistency of the decisions suggested by Bayesian and classical testing (understood as Null Hypothesis Significance Testing, NHST) for non-normal data. If a researcher in classical statistics receives a decision to accept the null hypothesis, will the researcher in Bayesian statistics make the same decision? The research design chosen for this dissertation was a comparison between the two groups.The tool of the classical approach was p-value of the Student's t-test for independent samples. And in the Bayesian approach - Bayesian factor BF10. The formula of the Bayes factor BF10 provides for the inclusion of the prior knowledge of the researcher expressed by so-called a priori distributions.Therefore, the study used three distributions expressing the intuition of the researcher regarding the phenomenon (two called informative and one non-informative). The first of the distributions corresponded to the situation in which the researcher's intuition was not consistent with reality. The second represented erroneous knowledge meaning that a researcher was wrong about the phenomenon. The third distribution expressed a researcher's ignorance of the phenomenon. The data was generated from one of skewed distribution in psychological research (exponentially modified ex-Gaussian distribution). It was used to model the moral code of Care - a theoretical construct taken from Haidt's theory of foundations. Apart from the compliance level between these tools, the subject of the research was to assess the level of errors of the 1st and 2nd kind for both approaches and which one makes less mistakes. The comparisons were used to evaluate the superiority of one of the approaches within the selected scheme and for skewed distributions. Using computer simulations, data was generated from both the theoretical distribution and the empirical distribution from previous studies. The size of the Cohen d effect (d = 0; 0.2; 0.5; 0.8) and the sample size (n = 10, 20, 30, 40, 50, 100, 150, 200, 300) were also manipulated. The analyzes showed that the percentage of agreement between p-values and the Bayes factors BF10 depends on the size of the effect, sample size, but also on the type of a priori probability. For a priori probability representing the researcher's knowledge consistent with reality,full agreement between classical and Bayesian testing is achieved for samples of approximately 200observations when the effect size is equal to Cohen's d 0.8, and also for samples of 300 observations when Cohen's d value is 0.5. For the Cohen's d effect size equal to 0.2, the sample size must include at least 600 observations (the exact value has not been determined due to the software's computational limitations). It also turned out that full compatibility in decisions between the tools is achieved when the power of the Student's t-test was very high (over 90%).In the context of errors of the 1st and 2nd kind, the Bayesian approach is ahead of the classical one, as long as in the construction of the Bayes factos BF10 a priori informative probabilities were used. It was less important whether the distribution describing the researcher's prior knowledge was a priori distribution consistent with the real direction of the relationship (the researcher is right about phenomenon) or wrong (the researcher has a wrong intuition). Bayes factor BF10 with the non-informative a priori probability achieves much worse results, favoring the null hypothesis, which translates into both lower agreement and increased type II error. The results showed that a researcher can get different decisions using the Bayesian and the classical approaches to statistical hypothesis testing. The Bayesian approach makes fewer errors of both kinds and offers the researcher to evaluate the support of the hypothesis by the data.