Ich habe eine Frage, wie ein Statistiker normalerweise eine Anova-Ausgabe interpretieren würde. Angenommen, ich habe eine Anova-Ausgabe von R.
> summary(fitted_data)
Call:
lm(formula = V1 ~ V2)
Residuals:
Min 1Q Median 3Q Max
-2.74004 -0.33827 0.04062 0.44064 1.22737
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.11405 0.32089 6.588 1.3e-09 ***
V2 0.03883 0.01277 3.040 0.00292 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262, Adjusted R-squared: 0.06476
F-statistic: 9.24 on 1 and 118 DF, p-value: 0.002917
> anova(fit)
Analysis of Variance Table
Response: V1
Df Sum Sq Mean Sq F value Pr(>F)
V2 1 3.588 3.5878 9.2402 0.002917 **
Residuals 118 45.818 0.3883
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Ich denke, der wichtigste Wert ist Pr (> F), oder? Dieser Pr ist also weniger als 0,05 (95% -Niveau). Wie soll ich das "erklären"? Erkläre ich es in "Assoziation", dh V2 und V1 sind assoziiert (oder nicht)? oder in Bezug auf "Bedeutung"? Ich hatte immer das Gefühl, dass ich nicht verstehen konnte, wenn Leute sagten "Dieser Wert ist bedeutend ...". Was ist also "bedeutsam"? Gibt es eine intuitivere Form der Erklärung? wie "Ich bin zu 95% davon überzeugt, dass ...".
Ist der Pr-Wert auch die einzige wichtige Information? oder kann ich mir auch Residuen und den Rest der Ausgabe ansehen, um das Ergebnis zu "erklären"? Vielen Dank
quelle
fitted_data
Antworten:
Nicht für mich. Die Idee, dass die Größe des p-Werts das Wichtigste in einer ANOVA ist, ist weit verbreitet, aber ich denke fast völlig falsch. Für den Anfang ist der p-Wert eine zufällige Größe (mehr, wenn die Null wahr ist, wenn sie gleichmäßig zwischen 0 und 1 verteilt ist). Ein solcher niedrigerer p-Wert mag in keinem Fall besonders informativ sein, aber auch über die Frage der Größe des p-Wertes hinaus sind Dinge wie Effektgrößen im Allgemeinen viel wichtiger.
Vielleicht möchten Sie ein bisschen herumlesen
Cohen, J. (1990). Dinge, die ich (bisher) gelernt habe, American Psychologist 45, 1304-1312.
Cohen, J. (1994). Die Erde ist rund (p <0,05). American Psychologist, 49, 997 & ndash; 1003.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/
http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf
http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy
- -
In dem Fall, den Sie präsentieren, ist es schwierig, ohne Kontext zu interpretieren (ich weiß nicht einmal, ob V2 kategorisch oder kontinuierlich ist), aber wenn V2 kontinuierlich wäre , könnte ich etwas über die Schlussfolgerung sagen, dass es eine Assoziation zwischen V1 und V2 gibt. Wenn V2 kategorisch wäre (0-1), könnte ich etwas über Unterschiede im Mittelwert V1 für die beiden Kategorien sagen und so weiter.
Nun einige Dinge NICHT zu sagen:
Nennen Sie niemals p <0,05 "signifikant bei 95%". Das ist falsch. Sie sollten es auch nicht zu 95% als etwas anderes bezeichnen.
Sag das auch nie. Es ist falsch.
quelle
Der Teil der Ausgabe, den ich mir zuerst ansehen könnte, ist folgender:
Es zeigt Ihnen, dass das Gesamtmodell signifikant war (F (1.118) = 9,24, p = 0,003) und V1 etwa 7% der Varianz in V2 ausmacht.
Die Effektgröße (0,039) gibt an, dass, wenn V2 um 1 zunimmt, Ihr Modell vorhersagt, dass V1 um ~ 0,04 zunimmt (positive Beziehung). Der Standardfehler bei dieser Schätzung (0,013) zeigt an, dass (ungefähr) das 95% -Konfidenzintervall des Effekts CI95 = [.0135, .064] (dh
.039- 1.96*.013
bis.039+ 1.96*.013
) ist.Das Konfidenzintervall enthält keine Null, die (wie erforderlich) mit dem p-Wert übereinstimmt.
Wenn Sie eine Anova-Ausgabe wünschen (wie Sie angeben), müssen Sie danach fragen (keine Regressionszusammenfassung, die das
summary()
gibt).anova
() oder aus demcar
Paket erhaltenAnova
Sie dies. Abhängig von Ihren Zwecken bevorzugen Sie möglicherweise die Anova-Standardausgabe des Fahrzeugs, die den Effekt jeder Variablen in Ihrer ANOVA so ergibt, als ob sie zuletzt eingegeben worden wäre, sogenannte " Quadratsummen vom Typ III ".Wenn wir zu einem integrierten Beispiel wechseln, das einen Rs-
mtcars
Datensatz mit Automeilen pro Gallone und andere Daten wie Gewicht und Motorgröße verwendet, können Sie ein Anova-Beispiel erstellen:Dies legt nahe, dass das Fahrzeuggewicht und die Anzahl der Zylinder wesentliche Faktoren für das erreichte Fahrzeugmeilen pro Gallone sind. Natürlich sind alle diese Variablen im Autodatensatz verwechselt, was zeigt, dass wir wirklich eine Theorie des Kraftstoffverbrauchs brauchen, um hier Fortschritte zu erzielen.
quelle