Ich verstehe das so, dass das Modell einzelne Datenpunkte schlecht vorhersagt, aber einen festen Trend festgestellt hat (z. B. steigt y, wenn x steigt).
regression
inference
r-squared
linear
PaperRockBazooka
quelle
quelle
Antworten:
Dies bedeutet, dass Sie einen kleinen Teil der Abweichung in den Daten erklären können. Sie können beispielsweise feststellen, dass sich ein Hochschulabschluss auf die Gehälter auswirkt, dies ist jedoch nur ein kleiner Faktor. Es gibt viele andere Faktoren, die Ihr Gehalt beeinflussen, und der Beitrag des Hochschulabschlusses ist sehr gering, aber nachweisbar.
In der Praxis könnte dies bedeuten, dass der College-Abschluss das Gehalt im Durchschnitt um 500 USD pro Jahr erhöht , während die Standardabweichung der Gehälter von Personen 10.000 USD beträgt . Daher haben viele Leute mit Hochschulabschluss niedrigere Gehälter als Nicht-Hochschulabsolventen, und der Wert Ihres Vorhersagemodells ist niedrig.
quelle
Dies bedeutet, dass "der irreduzierbare Fehler hoch ist", dh, das Beste, was wir (mit linearem Modell) tun können, ist begrenzt. Zum Beispiel der folgende Datensatz:
quelle
Stellen Sie auf einfache Weise (ein bisschen zu stark vereinfacht) dar, dass Sie einen starken Effekt und / oder eine Menge Daten benötigen, um zu beweisen, dass etwas von Bedeutung ist. Es kann sogar bei einem kleinen Effekt zu einer statistisch signifikanten linearen Regression kommen (kleinR2 ) wenn Sie genügend Daten haben. Dies ist nicht auf lineare Regression beschränkt.
quelle
Dies bedeutet, dass es eine lineare Beziehung zwischen der unabhängigen und der abhängigen Variablen gibt, aber dass diese Beziehung möglicherweise nicht der Rede wert ist.
Die Aussagekraft der Beziehung hängt jedoch stark davon ab, was Sie untersuchen. Im Allgemeinen können Sie jedoch davon ausgehen, dass statistische Signifikanz nicht mit Relevanz verwechselt werden sollte.
Bei einer ausreichend großen Stichprobe ist sogar die trivialste Beziehung statistisch signifikant.
quelle
Eine andere Möglichkeit, dies auszudrücken, besteht darin, dass Sie eine Änderung auf Bevölkerungsebene, jedoch nicht auf individueller Ebene sicher vorhersagen können. Das heißt, es gibt eine hohe Varianz in den einzelnen Daten, aber wenn eine ausreichend große Stichprobe verwendet wird, kann insgesamt ein zugrunde liegender Effekt gesehen werden. Dies ist ein Grund, warum einige Gesundheitsratschläge der Regierung für den Einzelnen nicht hilfreich sind. Regierungen verspüren manchmal das Bedürfnis zu handeln, weil sie sehen können, dass mehr Aktivitäten insgesamt zu mehr Todesfällen in der Bevölkerung führen. Sie produzieren Ratschläge oder eine Politik, die diese Leben "rettet". Aufgrund der hohen Varianz der individuellen Reaktionen ist es jedoch sehr unwahrscheinlich, dass eine Person persönlich einen Nutzen sieht (oder, noch schlimmer, aufgrund spezifischer genetischer Bedingungen, hätte sich ihre eigene Gesundheit tatsächlich verbessert, wenn sie den gegenteiligen Ratschlägen gefolgt wäre). Dies ist jedoch in der Bevölkerungsaggregation verborgen. Wenn der Einzelne Nutzen aus der „ungesunden“ Tätigkeit zieht (z. B. Freude), kann die Befolgung des Hinweises bedeuten, dass er auf diese bestimmte Freude während seines gesamten Lebens verzichtet, sich jedoch nicht persönlich ändert, ob er unter der Krankheit gelitten hätte oder nicht.
quelle