Umfragedesign Chi-Quadrat

8

Kennt jemand eine Methode zum Vergleichen zweier Variablen mit einem Chi-Quadrat-Test, wenn die Variablen aus verschiedenen Umfragen mit unterschiedlichen svydesign()Aussagen stammen? Ich möchte einen Unterschied in einer variablen Verteilung über zwei Wellen einer Umfrage testen, aber die svychisq()Aussage ist auf ein Entwurfsobjekt beschränkt.

Ist es legitim, die beiden Variablen in einer neuen zu stapeln data.frame, eine neue svydesignAnweisung mit den kollektiven Gewichten zu erstellen und dann den Test auszuführen?

David Rae
quelle
2
Dies sollte auf die CrossValidated stats.SE-Website migriert werden. Ich werde warten, bis es migriert ist, aber in der Zwischenzeit mit dem Lesen beginnen: citeulike.org/user/ctacmo/article/8898414
StasK
@StasK irgendeinen Link ohne Paywall?
Anthony Damico
@AnthonyDamico, fragen Sie die Statistical Society of Canada: - \. Es kann auch auf Wus Seite sein.
StasK
1
Was meinst du mit "vergleichen"? Sind diese stetigen Variablen, Ordnungsvariablen, Nominalvariablen? Ihre Frage enthält nicht genug, um richtig beantwortet zu werden.
StasK
@StasK, danke für die Hilfe, nur um klar zu sein, dieser Vergleich ist sowohl für ordinale als auch für kontinuierliche Variablen
David Rae

Antworten:

3

Wenn Sie den Weg des Stapelns der Datensätze beschreiten, sollten Sie Superschichten definieren, die den beiden Datensätzen / Wellen entsprechen, damit Sie svydesign()wissen, dass sie unabhängig sind. So hat Ihr neuer svydesignSchichten = Jahres- und Schichtkreuz, die Netzteile aus den Originaldesigns und die Gewichte aus den Originaldesigns.

Wie ich im Kommentar vorgeschlagen habe, wurden in der Literatur andere Möglichkeiten zur Kombination von Schätzungen und Tests vorgeschlagen. Wu (2004) verwendet die empirische Wahrscheinlichkeit basierend auf gemeinsamen Variablen zwischen den beiden Datensätzen.

Idealerweise möchten Sie für kontinuierliche Variablen den Kolmogorov-Smirnov-Test mit "flachen" Daten verwenden, aber ich weiß nicht, ob Erweiterungen für Umfragedaten funktionieren. Ich bezweifle das. Daher müssen Sie möglicherweise Ihre kontinuierlichen Variablen in ordinale Variablen in beispielsweise Perzentilgruppen oder gleich breite Bins des Variablenbereichs konvertieren (wobei die obige Funktion der Stichprobengröße eine häufig verwendete Anzahl von Bins für ein Histogramm ist ) und wende den Rao-Scott auf sie an.χ 2[log2(n)]χ2

StasK
quelle