So standardisieren Sie Proportionen aus US-Volkszählungsdaten

Wenn man diese Grafik der New York Times über den Ort sieht, an dem gleichgeschlechtliche Paare leben , scheint es, dass die Bezirke mit der niedrigen Bevölkerung die größten Unterschiede aufweisen (zum Beispiel im Vergleich zu North Dakota und Ohio). Vermutlich ist ein Teil dieser Variation auf die geringeren Stichprobengrößen zurückzuführen. Was ist der richtige Weg, um dies anzupassen, insbesondere angesichts der Tatsache, dass dies aus Stichproben von Volkszählungsdaten stammt?

Geben Sie hier die Bildbeschreibung ein

Ich habe versucht, einen Wert des Mittelwerts wie im Verhältnis zu berechnen , der unterschiedliche Stichprobengrößen berücksichtigt . Die resultierenden Werte scheinen übertrieben (-20 bis 200), und ich frage mich, ob dies daran liegt, dass ich die Anzahl der Haushalte als Stichprobengröße anstelle der Anzahl der in die Stichprobe einbezogenen Haushalte verwendet habe. Das heißt, bei der Volkszählung werden nur etwa 1% der Haushalte befragt (basierend auf einem Bericht von ~ 3 Millionen ACS-Umfragen). Daher sollte die Stichprobengröße möglicherweise 1/100 der Anzahl der Haushalte im Landkreis betragen. Die Werte werden dann um den Faktor 10 reduziert, und die Werte werden hier angezeigt (wobei das obere Ende des Bereichs immer noch abgeschnitten wird). $z$ $z$

Geben Sie hier die Bildbeschreibung ein

Die Verteilung der Proportionen ist leicht verzerrt, und ich habe sie nicht angepasst. Vermutlich sind einige der Abweichungen echte Ausreißer und keine systematische Variation.

Geben Sie hier die Bildbeschreibung ein

Die NYT-Daten befinden sich in einer TSV-Datei, obwohl einige der County-Namen fehlen (verwenden Sie stattdessen die FIPS-Codes). Außerdem werden ihre Daten angepasst, um falsch codierte Umfragen zu berücksichtigen.

Ich versuche im Wesentlichen, eine Bewertung zu verwenden, die mit einem Trichterdiagramm vergleichbar ist , und hier ist, wie mein Trichterdiagramm mit den angepassten Stichprobengrößen aussieht.

Geben Sie hier die Bildbeschreibung ein

Hauptfrage : Was als Stichprobengröße für diese Daten bei der Berechnung der zu verwenden ist $z$ Ergebnis? Grundlegende Frage: Ist dies der richtige Weg, um die Proportionen für den visuellen Vergleich zu standardisieren?

data-visualization census funnel-plot z-score xan
quelle

Antworten:

Nachdem ich mit lokalen Statistikern gesprochen habe und keine anderen Antworten gesehen habe, kann ich eine Antwort geben. Gerne entferne ich auch die Frage, wenn Kommentatoren sie für zu eng halten.

Die Anzahl der Befragten entspricht der richtigen Stichprobengröße für die Score-Berechnungen. Ich habe 1% verwendet und seitdem erfahren, dass 2/3 von 1% eine bessere Schätzung der Rücklaufquote sind. Ich kann Stichprobengrößen auf Landesebene vom Census Bureau erhalten. Ich habe auch überprüft, ob die Daten aus der American Community Survey stammen und nicht aus der allgemeinen Volkszählung, bei der keine Beziehungsfragen gestellt werden.

Es wurde auch vorgeschlagen, die fernen Ausreißer bei der Berechnung des großen Mittelwerts mit der Idee auszuschließen, dass sich diese Standorte kategorisch von der allgemeinen Bevölkerung der Landkreise unterscheiden.

Eine andere Technik zur Behandlung von Abweichungen aufgrund kleiner Stichproben ist die Small Area Estimation , die als eine Art gewichteter Glätter angesehen werden kann.

Obwohl ich die Quelle vergessen hatte, erkenne ich jetzt, dass meine Inspiration für diese Forschungslinie Howard Wainers Diskussion über ähnliche Probleme mit Krebsraten nach Landkreisen und Testergebnissen nach Schulen war, die in Picturing the Uncertain World gesammelt wurden .

xan
quelle