Ist die Homogenität der Proben eine Annahme der Regressionsanalyse?

8

Ich habe angenommen (dh ich glaube, ich wurde vor längerer Zeit unterrichtet, als ich mich erinnern kann), dass Regressionsanalysen davon ausgehen, dass eine Stichprobe homogen ist. Ist dies nicht der Fall, müssen Sie entweder Dummy-Variablen zum Code für die verschiedenen in der Stichprobe enthaltenen Gruppen hinzufügen oder eine ANCOVA durchführen, um zu testen, ob die Gruppenparameter gleich sind. Macht das Ignorieren der Heterogenität einer Stichprobe eine Regressionsanalyse ungültig?

BISSCHEN
quelle

Antworten:

8

Die Stichprobe wird typischerweise in dem Sinne als homogen angenommen, dass die Fehlerterme in der Gleichung die folgenden Bedingungen erfüllen:ϵiyi=β0+β1x1+β2x2++ϵi

  1. Alle haben den Mittelwert Null: für alle i ,E(ϵi)=0i
  2. Sind nicht korreliert: für i j ,Cov(ϵi,ϵj)=0ij
  3. Cov(ϵi)=σ2i

Diese sind als Gauß-Markov-Bedingungen bekannt und stellen sicher, dass der gewöhnliche Schätzer der kleinsten Quadrate eine gute Leistung erbringt (Unparteilichkeit, bester linearer unverzerrter Schätzer ...).

Beachten Sie, dass diese Bedingungen auch dann erfüllt werden können, wenn Sie Beobachtungen aus verschiedenen Gruppen haben. Oft ist dies jedoch nicht der Fall. Wenn es Unterschiede im Mittelwert zwischen den Gruppen gibt, werden die erste und die zweite Bedingung verletzt. Wenn es innerhalb der Gruppen Korrelationen gibt, wird die zweite Bedingung verletzt. Wenn sich die Gruppen in der Varianz unterscheiden, wird die dritte verletzt.

Verstöße gegen die Gauß-Markov-Bedingungen können alle möglichen Probleme verursachen. Einige der Folgen einer nicht konstanten Varianz finden Sie auf der Wikipedia-Seite zur Heteroskedastizität .

Transformationen können nützlich sein, wenn die dritte Bedingung nicht erfüllt ist. Wenn die verschiedenen Gruppen jedoch Probleme mit den Bedingungen eins und zwei verursachen, erscheint es sinnvoller, eine Gruppen-Dummy-Variable hinzuzufügen oder ANCOVA zu verwenden.

MånsT
quelle
1
E(ε)=0
Ich entferne meine Antwort nicht, weil irgendetwas falsch ist, sondern weil die letztere Antwort von MansT sie vollständiger abdeckt, mit Ausnahme des Teils über die Modellierung der Varianzfunktion, wie in Ray Carrolls Buch beschrieben.
Michael R. Chernick