Wie würde sich eine Neugewichtung der Diversity-Daten der American Community Survey auf die Fehlerquote auswirken?

Hintergrund: Meine Organisation vergleicht derzeit ihre Statistiken zur Belegschaftsvielfalt (z. B.% Menschen mit Behinderungen,% Frauen,% Veteranen) mit der Gesamtverfügbarkeit von Arbeitskräften für diese Gruppen auf der Grundlage der American Community Survey (einem Umfrageprojekt des US Census Bureau). Dies ist eine ungenaue Benchmark, da wir eine sehr spezifische Reihe von Arbeitsplätzen haben, die eine andere demografische Struktur aufweisen als die Erwerbsbevölkerung insgesamt. Nehmen wir zum Beispiel an, meine Organisation besteht hauptsächlich aus Ingenieuren. Ingenieurwesen besteht in meinem Bundesstaat nur zu etwa 20% aus Frauen. Wenn wir uns mit dem Gesamtmaßstab für Arbeitskräfte vergleichen, der eher 50% der Frauen entspricht, entsteht Panik, dass „wir nur 20% Frauen haben, das ist eine Katastrophe!“ Wenn wirklich, sind 20% das, was wir erwarten sollten, denn so sieht die Arbeitslandschaft aus.

Mein Ziel: Ich möchte die Berufsdaten der American Community Survey (nach Diversity-Kategorien) anhand der Zusammensetzung der Arbeitsplätze in meinem Unternehmen neu gewichten. Hier ist ein Beispieldatensatz für Sozial- und Zivildienstmitarbeiter . Ich möchte diese Jobcodes zusammen auflisten (weil unser Zebrastreifen zu Jobgruppen und nicht zu bestimmten Jobcodes führt), und dann möchte ich diesen Benchmark anhand der Anzahl der Personen in dieser Kategorie gewichten (z. B. unsere 3.000 sozialen und Zivildienstmitarbeiter), dann möchte ich allen anderen Berufsgruppen dasselbe antun, diese Zahlen addieren und durch unsere Gesamtzahl der Beschäftigten dividieren. Dies würde mir eine neue neu gewichtete Diversitätsmaßnahme geben (z. B. von 6% Menschen mit einer Behinderung auf 2% Menschen mit einer Behinderung).

Meine Fragen: Wie passe ich Fehlerquoten an diesen endgültigen aufgerollten Benchmark an? Ich habe (offensichtlich) nicht den Rohzählungsdatensatz, aber Sie können die Fehlergrenzen für jede Zahl in dem von mir bereitgestellten Link anzeigen, indem Sie das Feld "Schätzung" auf "Fehlergrenze" oben in der Tabelle umschalten. Meine anderen Mitarbeiter, die mit diesen Daten arbeiten, beabsichtigen, die Fehlergrenzen vollständig zu ignorieren, aber ich mache mir Sorgen, dass wir einen statistisch bedeutungslosen Benchmark für uns selbst erstellen. Sind diese Daten nach der oben beschriebenen Manipulation überhaupt noch verwendbar?

confidence-interval sampling data-transformation diversity DanicaE
quelle

Gewichten Sie das ACS nicht neu - es ist ein heikles, hochentwickeltes Produkt, und bei allem Respekt denke ich nicht, dass Sie ein so guter Statistiker sind wie das Census Bureau insgesamt. Wenn Sie Jobdefinitionen für Ihre Aufgabe in ACS oder CPS für landesweite Vergleiche erhalten können, besteht der Vergleich von Äpfeln zu Äpfeln darin, die erwartete Anzahl von "Diversity" -Kategorien basierend auf ACS zu berechnen, damit Ihr Unternehmen als angemessene Diversität fungiert Ziele.

StasK

Stas, ich stimme Ihnen zu, aber wie ich weiter unten angedeutet habe, handelt es sich nicht um eine Neugewichtung von ACS.

Steve Samuels

In der Umfragestatistik würde "Neugewichtung" eine Transformation der ursprünglichen Umfragegewichte bedeuten . Ein Beispiel hierfür wäre die Nachschichtung, das Harken von Proben oder die Kalibrierung, so dass bestimmte Randverteilungen für die neu gewichteten Proben mit Verteilungen übereinstimmen, die extern bekannt sind, beispielsweise aus der Volkszählung oder dem ACS. Das von Danica erwähnte Verfahren berührt die ACS-Gewichte nicht.

Steve Samuels

Was helfen kann, ist, die endliche Bevölkerungszahl aufzuschreiben, die Sie wissen möchten. Hat das ACS auch Replikationsgewichte? Diese können bei der Varianzschätzung hilfreich sein.

Wahrscheinlichkeitslogik

Antworten:

Update 15.01.2014

Mir ist klar, dass ich Danicas ursprüngliche Frage, ob die Fehlerquote für den indirekt angepassten Anteil deaktiviert größer oder kleiner als die Fehlerquote für dieselbe Rate in ACS ist, nicht beantwortet habe. Die Antwort lautet: Wenn sich die Anteile der Unternehmenskategorie nicht drastisch von den staatlichen ACS-Anteilen unterscheiden, ist die unten angegebene Fehlerquote kleiner als die ACS-Fehlerquote. Der Grund: Die indirekte Rate behandelt die Anzahl der Personen in der Organisationskategorie der Organisation (oder die relativen Anteile) als feste Zahlen. Die ACS-Schätzung des Anteils deaktiviert erfordert tatsächlich eine Schätzung dieser Anteile, und die Fehlergrenzen werden erhöht, um dies widerzuspiegeln.

Schreiben Sie zur Veranschaulichung die deaktivierte Rate wie folgt:

{\hat{P}}_{a d j} = \sum \frac{n_{i}}{n} \hat{p_{i}}

$\hat{P}_{adj} = \sum \dfrac{n_i}{n} \hat{p_i} \\$

Dabei ist die geschätzte Behinderungsrate in Kategorie im ACS. $\hat{p}_i$ $i$

Andererseits beträgt die geschätzte ACS-Rate tatsächlich:

{\hat{P}}_{a c s} = \sum \hat{(\frac{N_{i}}{N})} \hat{p_{i}}

$\hat{P}_{acs} = \sum\widehat{\left(\frac{N_i}{N}\right)} \hat{p_i}$

wobei und jeweils die Bevölkerungskategorie und die Gesamtsumme sind und der Bevölkerungsanteil in Kategorie . $N_i$ $N$ $N_i/N$ $i$

Somit ist der Standardfehler für die ACS-Rate größer, da zusätzlich zu geschätzt werden . $N_i/N$ $p_i$

Wenn sich die Anteile der Organisationskategorien und die geschätzten Anteile der Bevölkerung stark unterscheiden, ist es möglich, dass . In einem von mir konstruierten Beispiel mit zwei Kategorien wurden die Kategorien in den Anteilen und . Der Standardfehler für den geschätzten deaktivierten Anteil war . $SE( \hat{P}_{adj} )>SE( \hat{P}_{acs} )$ $N_1/N= 0.7345$ $N_2/N= 0.2655$ $SE( \hat{P}_{acs} ) = 0.0677$

Wenn ich 0,7345 und 0,2655 als feste Werte und (der indirekte Anpassungsansatz) betrachte, ist , viel kleiner. Wenn stattdessen und , , ungefähr das gleiche wie Am äußersten und , . Es würde mich wundern, wenn sich die Anteile von Organisation und Bevölkerungskategorie so drastisch unterscheiden. Wenn dies nicht der Fall ist, ist es meiner Meinung nach sicher, die ACS-Fehlerquote als konservative, möglicherweise sehr konservative Schätzung der tatsächlichen Fehlerquote zu verwenden. $n_1/n$ $n_2/n$ $SE(\hat{P}_{adj} )=0.0375$ $n_1/n= 0.15$ $n_2/n =0.85$ $SE( \hat{P}_{adj} )=0.0678$ $SE( \hat{P}_{acs} )$ $n_1/n= 0.001$ $n_2/n =0.999$ $SE( \hat{P}_{adj} )=0.079$

Update 2014-01-14

Kurze Antwort

Meiner Meinung nach wäre es unverantwortlich, eine solche Statistik ohne CI oder Fehlerquote (halbe CI-Länge) vorzulegen. Um diese zu berechnen, müssen Sie das ACS Public Use Microdata Sample (PUMS) herunterladen und analysieren ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Lange Antwort

Dies ist nicht wirklich eine Neugewichtung des ACS. Es ist eine Version der indirekten Standardisierung, ein Standardverfahren in der Epidemiologie (google oder siehe irgendeinen Epi-Text). In diesem Fall werden die Invaliditätsraten für ACS-Jobs (Kategorien) nach der Anzahl der Mitarbeiter in der Jobkategorie der Organisation gewichtet. Dadurch wird eine erwartete Anzahl behinderter Menschen in der Organisation berechnet E, die mit der beobachteten Anzahl verglichen werden kann O. Die übliche Metrik für den Vergleich ist ein standardisiertes Verhältnis R= (O/E). (Der übliche Begriff ist "SMR" für "standardisierte Sterblichkeitsrate", aber hier ist das "Ergebnis" Behinderung.) Rist auch das Verhältnis der beobachteten Invaliditätsrate (O/n)und der indirekt standardisierten Rate (E/n), wobei ndie Anzahl der Mitarbeiter der Organisation ist.

In diesem Fall scheint es, dass nur ein CI für Eoder E/nbenötigt wird, also beginne ich damit:

Wenn

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

Dann

 E = sum (n_i p_i)

Die Varianz von Eist:

 var(E) = nn' V nn

Dabei nnist der Spaltenvektor der Anzahl der Organisationskategorien und Vdie geschätzte Varianz-Kovarianz-Matrix der Invaliditätsraten der ACS-Kategorie.

Auch trivial se(E) = sqrt(var(E))und se(E/n) = se(E)/n.

und ein 90% CI für E ist

  E ± 1.645 SE(E)

Teilen Sie durch n, um das CI für zu erhalten E/n.

Zum Schätzen var(E)müssten Sie die PUMS-Daten (Public Use Microdata Sample) von ACS herunterladen und analysieren ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Ich kann nur über den Prozess für das Rechnen var(E)in Stata sprechen . Da ich nicht weiß, ob Ihnen das zur Verfügung steht, werde ich die Details verschieben. Jemand, der mit den Vermessungsfunktionen von R oder (möglicherweise) SAS vertraut ist, kann jedoch auch Code aus den obigen Gleichungen bereitstellen.

Konfidenzintervall für das Verhältnis R

Konfidenzintervalle für Rbasieren normalerweise auf einer Poisson-Annahme für O, aber diese Annahme kann falsch sein.

Wir können also überlegen Ound Eunabhängig sein

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))kann als ein weiterer Stata-Schritt nach der Berechnung von berechnet werden var(E).

Unter der Annahme der Poisson-Unabhängigkeit:

 var(log O) ~ 1/E(O).

Ein Programm wie Stata könnte beispielsweise in ein negatives Binomialmodell oder ein verallgemeinertes lineares Modell passen und Ihnen einen genaueren Varianzterm geben.

Ein ungefährer 90% CI für log Rist

 log R ± 1.645 sqrt(var(log R))

und die Endpunkte können potenziert werden, um das CI für zu erhalten R.

Steve Samuels
quelle

Dies ist eine gute Diskussion. Am Ende kann Ihre Empfehlung, ein CI für potenzieren, jedoch zu einem wirklich schlechten CI für selbst führen.

\log (R)

$\log(R)$

R

$R$

whuber

Dies schien mir kein Fall zu sein, in dem ein Verschmieren angebracht war, aber ich könnte mich irren. Was würdest du vorschlagen?

Steve Samuels

Einige im CV erwähnte Methoden umfassen das Boostrapping des CI, die Delta-Methode und das Profilieren der Likelihood-Funktion.

whuber

Danke für deine Antwort. Ist es möglich, PUMS-Daten mit R abzurufen? Ich habe keine SAS. Ich habe PUMS-Daten abgerufen, bevor ich das von der Volkszählung bereitgestellte DataFerret-Tool verwendet habe, bin mir jedoch nicht sicher, ob ich damit irgendetwas in Excel sinnvoll manipulieren kann. Ich kann R natürlich installieren, habe aber keine Erfahrung damit.

DanicaE

Gern geschehen, Danica. Wenn diese Antwort hilfreich ist, klicken Sie bitte auf das Häkchen, um sie offiziell zu akzeptieren. Beachten Sie, dass ich die Antwort aktualisiert habe. Ich empfehle, dass Sie die ACS-Fehlergrenzen als konservativen Ersatz für die richtigen darstellen.

Steve Samuels

FWIW gibt es gute Ressourcen für das ACS und den Zugriff auf PUMS hier ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

Außerdem gibt es ein Paket für den Umgang mit ACS-Daten auf dem CRAN - natürlich ACS genannt -, das ich als sehr hilfreich empfunden habe, um atypische Dinge mit ACS-Daten zu tun. Dies ist eine gute Schritt-für-Schritt-Anleitung für das Paket (leider ist die Dokumentation nicht sehr intuitiv) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf

pricele2
quelle

Um dieses Problem mit freier Software zu lösen, möchte ich Sie bitten, die folgenden Schritte auszuführen: Hinzufügen zum Link http://asdfree.com in der Antwort von @ pricele2.

(1) ( zwei Stunden harte Arbeit ) machen Sie sich mit der Sprache vertraut. Sehen Sie sich die ersten 50 Videos zu je zwei Minuten an

http://twotorials.com/

(2) ( eine Stunde einfache Befolgung der Anweisungen ) Installieren Sie monetdb auf Ihrem Computer

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( 30 Minuten Anweisungen folgen + Download über Nacht ) Laden Sie die ACS-Pums auf Ihren Computer herunter. Holen Sie sich nur die Jahre, die Sie brauchen.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( vier Stunden Lernen und Programmieren und Überprüfen Ihrer Arbeit ) Rekodieren Sie die Variablen, die Sie neu kodieren müssen, gemäß den von Ihnen gewünschten Spezifikationen

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( zwei Stunden tatsächliche Analyse ) Führen Sie den genauen Befehl aus, den Sie suchen, erfassen Sie den Standardfehler und berechnen Sie ein Konfidenzintervall.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( vier Stunden Programmierung ) Wenn Sie einen Verhältnisschätzer benötigen, folgen Sie hier dem Beispiel für die Verhältnisschätzung (mit korrekt an die Umfrage angepasstem Standardfehler):

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552

Anthony Damico
quelle

Vielen Dank, das sind ausgezeichnete Ressourcen. Wenn jemand anderes nach diesen Informationen sucht, sind die R-Tutorials, die ich verwendet habe, datacamp.com und coursera.org/course/rprog . Data Camp ist ein fantastisches interaktives Tutorial. Der Coursera-Kurs befasst sich mehr mit Theorie / Struktur / Namen für Dinge.

DanicaE