Ich lese diese Notiz .
Auf Seite 2 heißt es:
"Wie viel von der Varianz in den Daten erklärt ein gegebenes Regressionsmodell?"
"Bei der Regressionsinterpretation geht es um den Mittelwert der Koeffizienten, bei der Inferenz um ihre Varianz."
Ich habe über solche Aussagen viele Male gelesen, warum interessiert es uns, "wie viel von der Varianz in den Daten durch das gegebene Regressionsmodell erklärt wird"? ... genauer gesagt, warum "Varianz"?
Antworten:
Warum sollte es uns interessieren, "wie viel von der Varianz in den Daten durch das gegebene Regressionsmodell erklärt wird?"
Um dies zu beantworten, ist es nützlich, sich genau zu überlegen, was es bedeutet, dass ein bestimmter Prozentsatz der Varianz durch das Regressionsmodell erklärt wird.
Sei die Ergebnisvariable. Die übliche Stichprobenvarianz der abhängigen Variablen in einem Regressionsmodell ist Nun sei ist die Vorhersage von basierend auf einem linearen Regressionsmodell der kleinsten Quadrate mit Prädiktorwerten . Wie hier bewiesen , kann diese Varianz wie folgt unterteilt werden:1Y.1, . . . , Yn
In der Regression der kleinsten Quadrate ist der Durchschnitt der vorhergesagten Werte , daher ist die Gesamtvarianz gleich der gemittelten quadratischen Differenz zwischen den beobachteten und den vorhergesagten Werten (Restvarianz) plus der Stichprobenvarianz der Vorhersagen selbst (erklärt) Varianz), die nur eine Funktion der s sind . Daher kann die "erklärte" Varianz als die Varianz in , die der Variation in ist . Der Anteil der Varianz in , der "erklärt" wird (dh der Anteil der Varianz in , der der Variation in ist) XYiXiYiYiXiR2Y.¯¯¯¯ X Y.ich Xich Y.ich Y.ich Xich ) wird manchmal als . R2
Wir verwenden nun zwei extreme Beispiele, um zu verdeutlichen, warum diese Varianzzerlegung wichtig ist:
(1) Die Prädiktoren haben nichts mit den Antworten zu tun . In diesem Fall kann der beste Prädiktor unvoreingenommene (im Sinne der kleinsten Quadrate) für ist . Daher ist die Gesamtvarianz in gleich der und steht in keinem Zusammenhang mit der Varianz in den Prädiktoren .Y i = ¯ Y Y i X iY.ich Y.ˆich= Y¯¯¯¯ Y.ich Xich
(2) Die Prädiktoren stehen in perfekter linearer Beziehung zu den Prädiktoren . In diesem Fall sind die Vorhersagen genau richtig und . Daher gibt es keine Restvarianz und die gesamte Varianz im Ergebnis ist die Varianz in den Vorhersagen selbst, die nur eine Funktion der Prädiktoren sind. Daher ist die gesamte Varianz im Ergebnis einfach auf die Varianz in den Prädiktoren .XiY.ˆich= Yich Xich
Situationen mit realen Daten liegen oft zwischen den beiden Extremen, ebenso wie der Varianzanteil, der diesen beiden Quellen zugeschrieben werden kann. Je mehr „erklärte Varianz“ ist - dh je mehr der Variation in , die aufgrund der Variation ist in - desto besser sind die Vorhersagen ausführen (dh je kleiner das "Restvarianz" ist), was eine andere Art zu sagen ist, dass das Modell der kleinsten Quadrate gut passt. X i Y iY.ich Xich Y.ˆich
quelle
Ich kann nicht mit den großen Hunden der Statistik rennen, die vor mir geantwortet haben, und vielleicht denke ich naiv, aber ich sehe es so ...
Stellen Sie sich vor, Sie sitzen in einem Auto und fahren die Straße hinunter, drehen das Rad nach links und rechts und betätigen das Gaspedal und die Bremsen wie wild. Dennoch bewegt sich das Auto reibungslos und bleibt von Ihren Aktionen unberührt. Sie würden sofort vermuten, dass Sie nicht in einem richtigen Auto saßen, und vielleicht würden wir bei genauerem Hinsehen feststellen, dass Sie in Disney World unterwegs sind. (Wenn Sie in einem echten Auto wären, wären Sie in Lebensgefahr, aber gehen wir nicht dorthin.)
Wenn Sie dagegen in einem Auto die Straße hinunterfahren und das Rad nur leicht nach links oder rechts drehen, bewegt sich das Auto sofort. Wenn Sie die Bremsen betätigen, führt dies zu einer starken Verzögerung Sitz. Sie könnten vermuten, dass Sie sich in einem Hochleistungssportwagen befanden.
Im Allgemeinen erleben Sie wahrscheinlich etwas zwischen diesen beiden Extremen. Das Ausmaß, in dem Ihre Eingaben (Lenkung, Bremsen, Gas) die Bewegung des Fahrzeugs direkt beeinflussen, gibt Ihnen einen Hinweis auf die Qualität des Fahrzeugs. Das heißt, je mehr von Ihrem Auto Abweichungen in der Bewegung aufweisen, die sich auf Ihre Handlungen beziehen, desto besser ist das Auto, und je mehr sich das Auto unabhängig von Ihrer Kontrolle bewegt, desto schlechter ist das Auto.
In ähnlicher Weise geht es darum, ein Modell für einige Daten zu erstellen (nennen wir diese Daten ), basierend auf einigen anderen Datensätzen (nennen wir sie ). Wenn sich nicht ändert, ist es wie ein Auto, das sich nicht bewegt, und es macht keinen Sinn zu diskutieren, ob das Auto (Modell) gut funktioniert oder nicht, also nehmen wir an, dass sich ändert.x 1 , x 2 , . . . , x i y yy x1, x2, . . . , xich y y
Genau wie das Auto hat ein Modell mit guter Qualität eine gute Beziehung zwischen den Ergebnissen variierend und den Eingaben variierend. Im Gegensatz zu einem Auto bewirkt nicht notwendigerweise eine Änderung von , aber wenn das Modell nützlich sein soll, muss sich in enger Beziehung zu ändern . Mit anderen Worten, die erklären einen Großteil der Varianz in .x i x i y x i y x i yy xich xich y xich y xich y
PS Ich konnte keine Winnie The Pooh-Analogie finden, aber ich habe es versucht.
PPS [EDIT:] Beachten Sie, dass ich diese spezielle Frage anspreche. Denken Sie nicht, dass Ihr Modell eine hervorragende Leistung erbringt, wenn Sie 100% der Varianz ausmachen. Sie müssen auch über eine Überanpassung nachdenken, bei der Ihr Modell so flexibel ist, dass es sehr genau zu den Trainingsdaten passt - einschließlich der zufälligen Macken und Kuriositäten. Um die Analogie zu verwenden, möchten Sie ein Auto mit guter Lenkung und guten Bremsen, aber Sie möchten, dass es auch auf der Straße funktioniert, nicht nur auf der Teststrecke, die Sie benutzen.
quelle