Stellen Sie sich ein klassisches Datenanalyseproblem vor, bei dem Sie ein Ergebnis und wie es mit einer Reihe von Prädiktoren . Die grundlegende Art der Anwendung ist hier
i ist ein Ergebnis auf Gruppenebene, beispielsweise die Kriminalitätsrate in Stadt .
Die Prädiktoren sind Merkmale auf Gruppenebene, z. B. demografische Merkmale der Stadt .
Das grundlegende Ziel ist die Anpassung eines Regressionsmodells (möglicherweise mit zufälligen Effekten, aber vergessen Sie dies vorerst):
Treten technische Schwierigkeiten auf, wenn einer (oder mehrere) der Prädiktoren das Ergebnis einer Umfrage sind, die für jede Einheit unterschiedliche Stichprobengrößen aufweist? Angenommen, ist eine Gesamtbewertung für Stadt , bei der es sich um die durchschnittliche Antwort einer Stichprobe von Personen aus Stadt Die Stichprobengrößen, auf denen diese Durchschnittswerte basieren, sind jedoch sehr unterschiedlich:
Da die Prädiktorvariablen in gewisser Weise nicht alle dieselbe Bedeutung für jede Stadt haben, befürchte ich, dass die Konditionierung dieser Variablen in einem Regressionsmodell, als wären sie alle "gleich", zu irreführenden Schlussfolgerungen führen könnte.
Gibt es einen Namen für diese Art von Problem? Wenn ja, gibt es Forschungen darüber, wie damit umzugehen ist?
Mein Gedanke ist, es als eine mit Fehler gemessene Prädiktorvariable zu behandeln und etwas in diese Richtung zu tun, aber die Messfehler weisen eine Heteroskedastizität auf, was sehr kompliziert wäre. Ich könnte darüber falsch denken oder es komplizierter machen als es ist, aber jede Diskussion hier wäre hilfreich.
Antworten:
Der Artikel "Ein heteroskedastisches Modell für Strukturfehler in Variablen mit Gleichungsfehlern" kann auf der Seite des Autors heruntergeladen werden:
http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers
Grundsätzlich müssen Sie die Variabilität beider Variablen berücksichtigen, um inkonsistente Schätzer, nicht zuverlässige Hypothesentests und Konfidenzintervalle zu vermeiden.
quelle
Ein Weg, um damit umzugehen, wäre anzunehmen, dass jede Stadt eine Verteilung mit der gleichen Varianz für die einzelnen Antworten hat. Dann hätte die durchschnittliche Messung X i jeder Stadt für den Prädiktor eine Varianz σ 2 / n i , wobeiσ2 Xi σ2/ni die Anzahl von Personen im Durchschnitt für Stadt i ist . Das wäre ein einfacher Weg, um mit der Heteroskedastizität umzugehen. Ich kenne keinen speziellen Namen für diese Form des Regressionsproblems.ni i
quelle