Was ist der Unterschied zwischen der Varianz und dem mittleren quadratischen Fehler?

27

Ich bin überrascht, dass dies noch nicht gestellt wurde, aber ich kann die Frage nicht auf stats.stackexchange finden.

Dies ist die Formel zur Berechnung der Varianz einer normalverteilten Stichprobe:

(XX¯)2n1

Dies ist die Formel zur Berechnung des mittleren quadratischen Fehlers von Beobachtungen in einer einfachen linearen Regression:

(yiy^i)2n2

Was ist der Unterschied zwischen diesen beiden Formeln? Der einzige Unterschied, den ich sehen kann, ist, dass MSE . Wenn dies der einzige Unterschied ist, warum nicht beide als Varianz bezeichnen, aber mit unterschiedlichen Freiheitsgraden?n2

Luciano
quelle
Was ist an der Wikipedia-Seite hier nicht klar?
TrynnaDoStat
3
Die Varianz ist der Durchschnitt der quadratischen Abweichung der Beobachtungen vom Mittelwert. Die MSE hingegen ist der Durchschnitt der quadratischen Abweichungen der Vorhersagen von den wahren Werten.
random_guy
3
Sowohl "Varianz" als auch "mittlerer quadratischer Fehler" haben mehrere Formeln und unterschiedliche Anwendungen. Könnten Sie zur Klärung Ihrer Frage (a) beschreiben, auf welche Art von Daten Sie diese Konzepte anwenden, und (b) Formeln dafür angeben? (Wahrscheinlich werden Sie auf diese Weise auch die Antwort auf Ihre Frage finden.)
whuber
6
Es gibt eine allgemeine Formel, die beide sind Sonderfälle: wobeipdie Anzahl der Parameter zu erhalten geschätzt ist yi(yiy^i)2nppy^
Glen_b -Reinstate Monica
@ Glen_b Können Sie bitte eine Referenz für weitere Informationen zu dieser allgemeinen Formel bereitstellen?
trianta2

Antworten:

28

Der mittlere quadratische Fehler, wie Sie ihn für OLS geschrieben haben, verbirgt etwas:

in(yiy^i)2n2=in[yi(β^0+β^xxi)]2n2

Beachten Sie, dass der Zähler über eine Funktion von y und x summiert , sodass Sie für jede Variable einen Freiheitsgrad verlieren, also n2 . In der Formel für die Stichprobenvarianz ist der Zähler eine Funktion einer einzelnen Variablen, sodass Sie im Nenner nur einen Freiheitsgrad verlieren.

Sie sind jedoch auf dem richtigen Weg zu bemerken, dass dies konzeptionell ähnliche Mengen sind. Die Stichprobenvarianz misst die Streuung der Daten um den Stichprobenmittelwert (in quadratischen Einheiten), während die MSE die vertikale Streuung der Daten um die Stichprobenregressionslinie (in quadratischen vertikalen Einheiten) misst.

Alexis
quelle
@amoeba Hey! Danke für ihre Aufmerksamkeit. Gibt es einen offiziellen Lebenslauf-Styleguide, der diese Bearbeitung veranlasst hat? Wenn ja, möchte ich davon erfahren. Wenn nicht, hat Glen_b mich einmal zu Recht ermahnt, dass ich mit meinen persönlichen Stilvorlieben kolonialisiert und andere Qs und As bearbeitet habe. Was denkst du? (Und ich frage dies in einem kollegialen Ton: Ich denke, Ihre Bearbeitung fügt etwas hinzu. Ich möchte nur unsere Bearbeitungswerte besser verstehen.)
Alexis
1
Ich glaube nicht, dass es einen offiziellen Lebenslauf-Styleguide gibt, der diesen Vorschlag macht, aber in LaTeX gibt es Inline- Formeln (markiert mit einem Dollarzeichen), die direkt im Textblock gerendert werden, und angezeigte Formeln (markiert mit zwei Dollarzeichen). die in einer separaten Zeile gerendert werden. Angezeigte Formeln verwenden ein anderes Layout. Ihre Formel befand sich ursprünglich in einer separaten Zeile, war jedoch mit einem Dollarzeichen markiert. Ich halte das nicht für sinnvoll. Sie haben jedoch Recht mit Ihren persönlichen Vorlieben. Sie können sich also gerne entschuldigen. Der Grund, den ich bearbeitet habe, war, dass ich sowieso einen Tippfehler im Q behoben habe.
Amöbe sagt Reinstate Monica
β0n1n2
1

nn1nn1

=β0+β1×xβ0β1n2

Brajesh Kumar
quelle