Anova von R Output Interpretation

8

Ich habe eine Frage, wie ein Statistiker normalerweise eine Anova-Ausgabe interpretieren würde. Angenommen, ich habe eine Anova-Ausgabe von R.

> summary(fitted_data)

Call:
lm(formula = V1 ~ V2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.74004 -0.33827  0.04062  0.44064  1.22737 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.11405    0.32089   6.588  1.3e-09 ***
V2           0.03883    0.01277   3.040  0.00292 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262,    Adjusted R-squared: 0.06476 
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.002917 

> anova(fit)
Analysis of Variance Table

Response: V1
           Df Sum Sq Mean Sq F value   Pr(>F)   
V2          1  3.588  3.5878  9.2402 0.002917 **
Residuals 118 45.818  0.3883                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Ich denke, der wichtigste Wert ist Pr (> F), oder? Dieser Pr ist also weniger als 0,05 (95% -Niveau). Wie soll ich das "erklären"? Erkläre ich es in "Assoziation", dh V2 und V1 sind assoziiert (oder nicht)? oder in Bezug auf "Bedeutung"? Ich hatte immer das Gefühl, dass ich nicht verstehen konnte, wenn Leute sagten "Dieser Wert ist bedeutend ...". Was ist also "bedeutsam"? Gibt es eine intuitivere Form der Erklärung? wie "Ich bin zu 95% davon überzeugt, dass ...".

Ist der Pr-Wert auch die einzige wichtige Information? oder kann ich mir auch Residuen und den Rest der Ausgabe ansehen, um das Ergebnis zu "erklären"? Vielen Dank

Dorothy
quelle
Bitte zeigen Sie mehr über Ihr Modellfitted_data
Stéphane Laurent
Die Antworten auf diese Frage sind (großzügig) unvollständig. Siehe stattdessen stats.stackexchange.com/questions/12398/… ... oder eine andere verwandte Frage / Antwort.
Michael

Antworten:

2

Aus dem oben Gesagten denke ich, dass der wichtigste Wert Pr (> F) ist, oder?

Nicht für mich. Die Idee, dass die Größe des p-Werts das Wichtigste in einer ANOVA ist, ist weit verbreitet, aber ich denke fast völlig falsch. Für den Anfang ist der p-Wert eine zufällige Größe (mehr, wenn die Null wahr ist, wenn sie gleichmäßig zwischen 0 und 1 verteilt ist). Ein solcher niedrigerer p-Wert mag in keinem Fall besonders informativ sein, aber auch über die Frage der Größe des p-Wertes hinaus sind Dinge wie Effektgrößen im Allgemeinen viel wichtiger.

Vielleicht möchten Sie ein bisschen herumlesen

Cohen, J. (1990). Dinge, die ich (bisher) gelernt habe, American Psychologist 45, 1304-1312.

Cohen, J. (1994). Die Erde ist rund (p <0,05). American Psychologist, 49, 997 & ndash; 1003.

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/

http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf

http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy

- -

α

In dem Fall, den Sie präsentieren, ist es schwierig, ohne Kontext zu interpretieren (ich weiß nicht einmal, ob V2 kategorisch oder kontinuierlich ist), aber wenn V2 kontinuierlich wäre , könnte ich etwas über die Schlussfolgerung sagen, dass es eine Assoziation zwischen V1 und V2 gibt. Wenn V2 kategorisch wäre (0-1), könnte ich etwas über Unterschiede im Mittelwert V1 für die beiden Kategorien sagen und so weiter.

Nun einige Dinge NICHT zu sagen:

ist weniger als 0,05 (95% -Niveau)

Nennen Sie niemals p <0,05 "signifikant bei 95%". Das ist falsch. Sie sollten es auch nicht zu 95% als etwas anderes bezeichnen.

wie "Ich bin zu 95% davon überzeugt, dass ...".

Sag das auch nie. Es ist falsch.

Glen_b -Reinstate Monica
quelle
Hallo danke. Ich würde mir diese Artikel ansehen, um die p-Werte besser zu verstehen. Wenn p-Werte Ihrer Meinung nach nicht "vertrauenswürdig" sein sollen, welche Parameter sollten uns mehr oder weniger etwas über die Beziehung zwischen V1 und V2 sagen? R-Quadrat?
Dorothy
R.2
Kurz gesagt - p-Werte sagen etwas aus - sie sind meiner Meinung nach im Allgemeinen nicht die "wichtigsten".
Glen_b -State Monica
Oh ok. Ich werde mehr auf das Linienkonfidenzintervall und die Effektgrößen eingehen, um die Ergebnisse zu erklären. Vielen Dank.
Dorothy
1
Was wichtig ist, hängt hauptsächlich davon ab, was Sie herausfinden möchten. Für mich sind es normalerweise die Koeffizienten und ihre Standardfehler und manchmal s. Manchmal interessieren mich auch die p-Werte. Aber manchmal habe ich Interesse an einem bestimmten Teil der Ausgabe.
Glen_b -Rate State Monica
1

Der Teil der Ausgabe, den ich mir zuerst ansehen könnte, ist folgender:

Multiple R-squared: 0.073,    Adjusted R-squared: 0.065
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.003

Es zeigt Ihnen, dass das Gesamtmodell signifikant war (F (1.118) = 9,24, p = 0,003) und V1 etwa 7% der Varianz in V2 ausmacht.

Die Effektgröße (0,039) gibt an, dass, wenn V2 um 1 zunimmt, Ihr Modell vorhersagt, dass V1 um ~ 0,04 zunimmt (positive Beziehung). Der Standardfehler bei dieser Schätzung (0,013) zeigt an, dass (ungefähr) das 95% -Konfidenzintervall des Effekts CI95 = [.0135, .064] (dh .039- 1.96*.013bis .039+ 1.96*.013) ist.

Das Konfidenzintervall enthält keine Null, die (wie erforderlich) mit dem p-Wert übereinstimmt.

Wenn Sie eine Anova-Ausgabe wünschen (wie Sie angeben), müssen Sie danach fragen (keine Regressionszusammenfassung, die das summary()gibt).

anova() oder aus dem carPaket erhalten AnovaSie dies. Abhängig von Ihren Zwecken bevorzugen Sie möglicherweise die Anova-Standardausgabe des Fahrzeugs, die den Effekt jeder Variablen in Ihrer ANOVA so ergibt, als ob sie zuletzt eingegeben worden wäre, sogenannte " Quadratsummen vom Typ III ".

Wenn wir zu einem integrierten Beispiel wechseln, das einen Rs- mtcarsDatensatz mit Automeilen pro Gallone und andere Daten wie Gewicht und Motorgröße verwendet, können Sie ein Anova-Beispiel erstellen:

m1 = lm(mpg ~ wt + disp + cyl+gear+am, data = mtcars);
Anova(m1)
| | Summe Sq | Df | F-Wert | Pr (> F) |
|: --------- | ------: | -: | -------: | -------: |
| wt | 58.02 | 1 | 8,27 | 0,01 * |
| disp | 1,53 | 1 | 0,22 | 0,64 |
| zyl | 57,59 | 1 | 8,21 | 0,01 * |
Ausrüstung 6.02 | 1 | 0,86 | 0,36 |
bin 3,44 | 1 | 0,49 | 0,49 |
Reste 182,41 | 26 | | |

Dies legt nahe, dass das Fahrzeuggewicht und die Anzahl der Zylinder wesentliche Faktoren für das erreichte Fahrzeugmeilen pro Gallone sind. Natürlich sind alle diese Variablen im Autodatensatz verwechselt, was zeigt, dass wir wirklich eine Theorie des Kraftstoffverbrauchs brauchen, um hier Fortschritte zu erzielen.

tim
quelle