Was bedeutet es, dass eine lineare Regression statistisch signifikant ist, aber ein sehr niedriges Quadrat aufweist?

14

Ich verstehe das so, dass das Modell einzelne Datenpunkte schlecht vorhersagt, aber einen festen Trend festgestellt hat (z. B. steigt y, wenn x steigt).

PaperRockBazooka
quelle
9
Dies kann auf eine sehr große Stichprobe hindeuten
Henry,
2
R-squared hat etwas Gepäck. stats.stackexchange.com/questions/13314/…
Reinstate Monica

Antworten:

27

Dies bedeutet, dass Sie einen kleinen Teil der Abweichung in den Daten erklären können. Sie können beispielsweise feststellen, dass sich ein Hochschulabschluss auf die Gehälter auswirkt, dies ist jedoch nur ein kleiner Faktor. Es gibt viele andere Faktoren, die Ihr Gehalt beeinflussen, und der Beitrag des Hochschulabschlusses ist sehr gering, aber nachweisbar.

In der Praxis könnte dies bedeuten, dass der College-Abschluss das Gehalt im Durchschnitt um 500 USD pro Jahr erhöht , während die Standardabweichung der Gehälter von Personen 10.000 USD beträgt . Daher haben viele Leute mit Hochschulabschluss niedrigere Gehälter als Nicht-Hochschulabsolventen, und der Wert Ihres Vorhersagemodells ist niedrig.

Aksakal
quelle
11

Dies bedeutet, dass "der irreduzierbare Fehler hoch ist", dh, das Beste, was wir (mit linearem Modell) tun können, ist begrenzt. Zum Beispiel der folgende Datensatz:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

Bildbeschreibung hier eingeben

Haitao Du
quelle
4

Stellen Sie auf einfache Weise (ein bisschen zu stark vereinfacht) dar, dass Sie einen starken Effekt und / oder eine Menge Daten benötigen, um zu beweisen, dass etwas von Bedeutung ist. Es kann sogar bei einem kleinen Effekt zu einer statistisch signifikanten linearen Regression kommen (kleinR2) wenn Sie genügend Daten haben. Dies ist nicht auf lineare Regression beschränkt.

Luca Citi
quelle
3

Was bedeutet es, dass eine lineare Regression statistisch signifikant ist, aber ein sehr niedriges Quadrat aufweist?

Dies bedeutet, dass es eine lineare Beziehung zwischen der unabhängigen und der abhängigen Variablen gibt, aber dass diese Beziehung möglicherweise nicht der Rede wert ist.

Die Aussagekraft der Beziehung hängt jedoch stark davon ab, was Sie untersuchen. Im Allgemeinen können Sie jedoch davon ausgehen, dass statistische Signifikanz nicht mit Relevanz verwechselt werden sollte.

Bei einer ausreichend großen Stichprobe ist sogar die trivialste Beziehung statistisch signifikant.

faustus
quelle
1
Eigentlich bedeutet lineare Regression linear in den Parametern. Die rohen abhängigen Variablen können transformiert werden und Sie haben immer noch eine lineare Regression. Ich bin ein wenig verwirrt darüber, was Ihrer Meinung nach statistische Signifikanz ist. Für mich bedeutet dies, dass die Parameterschätzungen groß sind.
Michael R. Chernick
Die Signifikanz bezieht sich auf die Wahrscheinlichkeit, dass die Ergebnisse rein zufällig waren und keine Beziehung zwischen den Prädiktoren und der abhängigen Variablen besteht. Wenn Sie eine kleine Stichprobengröße haben und die Ergebnisse signifikant sind, sind die Parameterschätzungen groß. Mit einer lächerlich großen Stichprobe können Sie jedoch auch mit einer sehr kleinen Parameterschätzung signifikante Ergebnisse erzielen. Probieren
faustus
Was Sie sagen, klingt wie eine allgemeine Beschreibung dessen, worum es bei Inferenz geht. Die statistische Signifikanz ist jedoch ein spezifischer Begriff, der damit zu tun hat, einen oder mehrere kritische Werte zu überschreiten, wobei die kritischen Werte von einem bestimmten Signifikanzniveau abhängen, das der Analyst auswählt (z. B. 0,05, 0,01 usw.). Die Stichprobengröße ist ein weiterer Faktor. In der Regression testen Sie mehrere Hypothesen (Signifikanz der einzelnen Regressionskoeffizienten sowie der Test, dass keine Beziehung besteht. Sie können auch durch schrittweise Prozeduren kompliziert werden, bei denen mehrere mögliche Modelle ausgewählt werden.
Michael R. Chernick
1
Statistik ist Teil der Wissenschaft und Teil der Kunst, basiert jedoch auf mathematischen Prinzipien.
Michael R. Chernick
2
@MichaelChernik Kannst du etwas näher darauf eingehen? Ich stimme faustus zu (tatsächlich habe ich zufällig eine ähnliche Antwort gegeben) und verstehe Ihren Standpunkt nicht. Bei der linearen Regression wird die Signifikanz (ob die Signifikanz einzelner Regressionskoeffizienten oder der gesamten Regression) gegen die Hypothese ohne Beziehung (Koeffizient genau 0) getestet klein. (fährt fort)
Luca Citi
2

Eine andere Möglichkeit, dies auszudrücken, besteht darin, dass Sie eine Änderung auf Bevölkerungsebene, jedoch nicht auf individueller Ebene sicher vorhersagen können. Das heißt, es gibt eine hohe Varianz in den einzelnen Daten, aber wenn eine ausreichend große Stichprobe verwendet wird, kann insgesamt ein zugrunde liegender Effekt gesehen werden. Dies ist ein Grund, warum einige Gesundheitsratschläge der Regierung für den Einzelnen nicht hilfreich sind. Regierungen verspüren manchmal das Bedürfnis zu handeln, weil sie sehen können, dass mehr Aktivitäten insgesamt zu mehr Todesfällen in der Bevölkerung führen. Sie produzieren Ratschläge oder eine Politik, die diese Leben "rettet". Aufgrund der hohen Varianz der individuellen Reaktionen ist es jedoch sehr unwahrscheinlich, dass eine Person persönlich einen Nutzen sieht (oder, noch schlimmer, aufgrund spezifischer genetischer Bedingungen, hätte sich ihre eigene Gesundheit tatsächlich verbessert, wenn sie den gegenteiligen Ratschlägen gefolgt wäre). Dies ist jedoch in der Bevölkerungsaggregation verborgen. Wenn der Einzelne Nutzen aus der „ungesunden“ Tätigkeit zieht (z. B. Freude), kann die Befolgung des Hinweises bedeuten, dass er auf diese bestimmte Freude während seines gesamten Lebens verzichtet, sich jedoch nicht persönlich ändert, ob er unter der Krankheit gelitten hätte oder nicht.

gesundheitlich
quelle
Sehr gutes Beispiel!
kjetil b halvorsen
Ich frage mich , was diese Studie ‚sR2
Aksakal