Ich besuche einen Datenanalysekurs und einige meiner tief verwurzelten Ideen werden erschüttert. Die Idee, dass der Fehler (epsilon) sowie jede andere Art von Varianz nur für eine Gruppe (eine Stichprobe oder eine gesamte Population) gilt (so dachte ich). Jetzt wird uns beigebracht, dass eine der Regressionsannahmen darin besteht, dass die Varianz "für alle Individuen gleich" ist. Das ist irgendwie schockierend für mich. Ich dachte immer, dass es die Varianz in Y über alle Werte von X war, die als konstant angenommen wurde.
Ich habe mich mit dem Professor unterhalten, der mir sagte, dass wir bei einer Regression davon ausgehen, dass unser Modell wahr ist. Und ich denke, das ist der schwierige Teil. Für mich bedeutete der Fehlerbegriff (epsilon) immer so etwas wie "alle Elemente, die wir nicht kennen und die unsere Ergebnisvariable beeinflussen könnten, plus einige Messfehler". In der Art und Weise, wie die Klasse unterrichtet wird, gibt es kein "anderes Zeug"; Unser Modell wird als wahr und vollständig angenommen. Dies bedeutet, dass alle verbleibenden Abweichungen als Produkt eines Messfehlers betrachtet werden müssen (daher wird erwartet, dass eine 20-malige Messung einer Person dieselbe Varianz ergibt wie eine einmalige Messung von 20 Personen).
Ich habe das Gefühl, dass irgendwo etwas nicht stimmt. Ich hätte gerne eine Expertenmeinung dazu ... Gibt es konzeptionell einen Interpretationsspielraum für den Fehlerbegriff?
quelle
Antworten:
Wenn es Aspekte von Individuen gibt, die sich auf die resultierenden y-Werte auswirken, gibt es entweder eine Möglichkeit, diese Aspekte zu erreichen (in diesem Fall sollten sie Teil des Prädiktors x sein), oder es gibt keine Möglichkeit, dies jemals zu erreichen Information.
Wenn es keine Möglichkeit gibt, jemals an diese Informationen zu gelangen, und es keine Möglichkeit gibt, y-Werte für Einzelpersonen wiederholt zu messen, spielt dies wirklich keine Rolle. Wenn Sie y wiederholt messen können und Ihr Datensatz tatsächlich wiederholte Messungen für einige Personen enthält, haben Sie ein potenzielles Problem in den Händen, da die statistische Theorie die Unabhängigkeit von den Messfehlern / Residuen voraussetzt.
Angenommen, Sie versuchen, ein Modell des Formulars anzupassen
und das für jeden Einzelnen,
wobei z vom Individuum abhängt und normalerweise mit dem Mittelwert 0 und der Standardabweichung 10 verteilt ist. Für jede wiederholte Messung eines Individuums
woe normalerweise mit dem Mittelwert 0 und der Standardabweichung 0,1 verteilt ist.
Sie könnten versuchen, dies als zu modellieren
wobei normalerweise mit dem Mittelwert 0 und der Standardabweichung verteilt istϵ
.σ=102+0.12−−−−−−−−√=100.01−−−−−√
Solange Sie nur eine Messung für jede Person haben, wäre das in Ordnung. Wenn Sie jedoch mehrere Messungen für dieselbe Person haben, sind Ihre Residuen nicht mehr unabhängig!
Wenn Sie beispielsweise eine Person mit z = 15 (1,5 Standardabweichungen, also nicht so unvernünftig) und hundert wiederholte Messungen dieser Person haben, verwenden Sie und β 1 = 10 (die genauen Werte!) Sie würden am Ende 100 Residuen von ungefähr +1,5 Standardabweichungen haben, was äußerst unwahrscheinlich erscheinen würde. Dies würde die χ 2- Statistik beeinflussen.β0=100 β1=10 χ2
quelle
Ich denke, "Fehler" lässt sich am besten als "der Teil der Beobachtungen beschreiben, der angesichts unserer aktuellen Informationen nicht vorhersehbar ist". Der Versuch, in Bezug auf Bevölkerung und Stichprobe zu denken, führt zu konzeptionellen Problemen (und das tut es auch für mich), ebenso wie der Gedanke, dass die Fehler als "rein zufällig" aus einer bestimmten Verteilung stammen. Denken in Bezug auf Vorhersage und "Vorhersagbarkeit" ist für mich viel sinnvoller.
quelle
Hier ist ein sehr nützlicher Link zur Erklärung der einfachen linearen Regression: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html Vielleicht kann es helfen, das "Fehler" -Konzept zu verstehen.
FD
quelle
Ich bin mit der Formulierung des Professors nicht einverstanden. Wie Sie sagen, impliziert die Vorstellung, dass die Varianz für jedes Individuum gleich ist, dass der Fehlerterm nur einen Messfehler darstellt. Dies ist normalerweise nicht die Art und Weise, wie das grundlegende multiple Regressionsmodell aufgebaut ist. Wie Sie bereits sagten, wird die Varianz für eine Gruppe definiert (unabhängig davon, ob es sich um eine Gruppe einzelner Probanden oder eine Gruppe von Messungen handelt). Dies gilt nicht auf individueller Ebene, es sei denn, Sie haben Maßnahmen wiederholt.
Ein Modell muss vollständig sein, da der Fehlerterm keine Einflüsse von Variablen enthalten sollte, die mit Prädiktoren korrelieren. Die Annahme ist, dass der Fehlerterm unabhängig von Prädiktoren ist. Wenn eine korrelierte Variable weggelassen wird, erhalten Sie vorgespannte Koeffizienten (dies wird als ausgelassene Variablenvorspannung bezeichnet ).
quelle