Hintergrund: Meine Organisation vergleicht derzeit ihre Statistiken zur Belegschaftsvielfalt (z. B.% Menschen mit Behinderungen,% Frauen,% Veteranen) mit der Gesamtverfügbarkeit von Arbeitskräften für diese Gruppen auf der Grundlage der American Community Survey (einem Umfrageprojekt des US Census Bureau). Dies ist eine ungenaue Benchmark, da wir eine sehr spezifische Reihe von Arbeitsplätzen haben, die eine andere demografische Struktur aufweisen als die Erwerbsbevölkerung insgesamt. Nehmen wir zum Beispiel an, meine Organisation besteht hauptsächlich aus Ingenieuren. Ingenieurwesen besteht in meinem Bundesstaat nur zu etwa 20% aus Frauen. Wenn wir uns mit dem Gesamtmaßstab für Arbeitskräfte vergleichen, der eher 50% der Frauen entspricht, entsteht Panik, dass „wir nur 20% Frauen haben, das ist eine Katastrophe!“ Wenn wirklich, sind 20% das, was wir erwarten sollten, denn so sieht die Arbeitslandschaft aus.
Mein Ziel: Ich möchte die Berufsdaten der American Community Survey (nach Diversity-Kategorien) anhand der Zusammensetzung der Arbeitsplätze in meinem Unternehmen neu gewichten. Hier ist ein Beispieldatensatz für Sozial- und Zivildienstmitarbeiter . Ich möchte diese Jobcodes zusammen auflisten (weil unser Zebrastreifen zu Jobgruppen und nicht zu bestimmten Jobcodes führt), und dann möchte ich diesen Benchmark anhand der Anzahl der Personen in dieser Kategorie gewichten (z. B. unsere 3.000 sozialen und Zivildienstmitarbeiter), dann möchte ich allen anderen Berufsgruppen dasselbe antun, diese Zahlen addieren und durch unsere Gesamtzahl der Beschäftigten dividieren. Dies würde mir eine neue neu gewichtete Diversitätsmaßnahme geben (z. B. von 6% Menschen mit einer Behinderung auf 2% Menschen mit einer Behinderung).
Meine Fragen: Wie passe ich Fehlerquoten an diesen endgültigen aufgerollten Benchmark an? Ich habe (offensichtlich) nicht den Rohzählungsdatensatz, aber Sie können die Fehlergrenzen für jede Zahl in dem von mir bereitgestellten Link anzeigen, indem Sie das Feld "Schätzung" auf "Fehlergrenze" oben in der Tabelle umschalten. Meine anderen Mitarbeiter, die mit diesen Daten arbeiten, beabsichtigen, die Fehlergrenzen vollständig zu ignorieren, aber ich mache mir Sorgen, dass wir einen statistisch bedeutungslosen Benchmark für uns selbst erstellen. Sind diese Daten nach der oben beschriebenen Manipulation überhaupt noch verwendbar?
Antworten:
Update 15.01.2014
Mir ist klar, dass ich Danicas ursprüngliche Frage, ob die Fehlerquote für den indirekt angepassten Anteil deaktiviert größer oder kleiner als die Fehlerquote für dieselbe Rate in ACS ist, nicht beantwortet habe. Die Antwort lautet: Wenn sich die Anteile der Unternehmenskategorie nicht drastisch von den staatlichen ACS-Anteilen unterscheiden, ist die unten angegebene Fehlerquote kleiner als die ACS-Fehlerquote. Der Grund: Die indirekte Rate behandelt die Anzahl der Personen in der Organisationskategorie der Organisation (oder die relativen Anteile) als feste Zahlen. Die ACS-Schätzung des Anteils deaktiviert erfordert tatsächlich eine Schätzung dieser Anteile, und die Fehlergrenzen werden erhöht, um dies widerzuspiegeln.
Schreiben Sie zur Veranschaulichung die deaktivierte Rate wie folgt:
Dabei ist die geschätzte Behinderungsrate in Kategorie im ACS.p^i i
Andererseits beträgt die geschätzte ACS-Rate tatsächlich:
wobei und jeweils die Bevölkerungskategorie und die Gesamtsumme sind und der Bevölkerungsanteil in Kategorie .Ni N Ni/N i
Somit ist der Standardfehler für die ACS-Rate größer, da zusätzlich zu geschätzt werden .Ni/N pi
Wenn sich die Anteile der Organisationskategorien und die geschätzten Anteile der Bevölkerung stark unterscheiden, ist es möglich, dass . In einem von mir konstruierten Beispiel mit zwei Kategorien wurden die Kategorien in den Anteilen und . Der Standardfehler für den geschätzten deaktivierten Anteil war .SE(P^adj)>SE(P^acs) N1/N=0.7345 N2/N=0.2655 SE(P^acs)=0.0677
Wenn ich 0,7345 und 0,2655 als feste Werte und (der indirekte Anpassungsansatz) betrachte, ist , viel kleiner. Wenn stattdessen und , , ungefähr das gleiche wie Am äußersten und , . Es würde mich wundern, wenn sich die Anteile von Organisation und Bevölkerungskategorie so drastisch unterscheiden. Wenn dies nicht der Fall ist, ist es meiner Meinung nach sicher, die ACS-Fehlerquote als konservative, möglicherweise sehr konservative Schätzung der tatsächlichen Fehlerquote zu verwenden.n1/n n2/n SE(P^adj)=0.0375 n1/n=0.15 n2/n=0.85 SE(P^adj)=0.0678 SE(P^acs) n1/n=0.001 S E ( P a d j ) = 0,079n2/n=0.999 SE(P^adj)=0.079
Update 2014-01-14
Kurze Antwort
Meiner Meinung nach wäre es unverantwortlich, eine solche Statistik ohne CI oder Fehlerquote (halbe CI-Länge) vorzulegen. Um diese zu berechnen, müssen Sie das ACS Public Use Microdata Sample (PUMS) herunterladen und analysieren ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Lange Antwort
Dies ist nicht wirklich eine Neugewichtung des ACS. Es ist eine Version der indirekten Standardisierung, ein Standardverfahren in der Epidemiologie (google oder siehe irgendeinen Epi-Text). In diesem Fall werden die Invaliditätsraten für ACS-Jobs (Kategorien) nach der Anzahl der Mitarbeiter in der Jobkategorie der Organisation gewichtet. Dadurch wird eine erwartete Anzahl behinderter Menschen in der Organisation berechnet
E
, die mit der beobachteten Anzahl verglichen werden kannO
. Die übliche Metrik für den Vergleich ist ein standardisiertes VerhältnisR= (O/E)
. (Der übliche Begriff ist "SMR" für "standardisierte Sterblichkeitsrate", aber hier ist das "Ergebnis" Behinderung.)R
ist auch das Verhältnis der beobachteten Invaliditätsrate(O/n)
und der indirekt standardisierten Rate(E/n)
, wobein
die Anzahl der Mitarbeiter der Organisation ist.In diesem Fall scheint es, dass nur ein CI für
E
oderE/n
benötigt wird, also beginne ich damit:Wenn
Dann
Die Varianz von
E
ist:Dabei
nn
ist der Spaltenvektor der Anzahl der Organisationskategorien undV
die geschätzte Varianz-Kovarianz-Matrix der Invaliditätsraten der ACS-Kategorie.Auch trivial
se(E) = sqrt(var(E))
undse(E/n) = se(E)/n
.und ein 90% CI für E ist
Teilen Sie durch
n
, um das CI für zu erhaltenE/n
.Zum Schätzen
var(E)
müssten Sie die PUMS-Daten (Public Use Microdata Sample) von ACS herunterladen und analysieren ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).Ich kann nur über den Prozess für das Rechnen
var(E)
in Stata sprechen . Da ich nicht weiß, ob Ihnen das zur Verfügung steht, werde ich die Details verschieben. Jemand, der mit den Vermessungsfunktionen von R oder (möglicherweise) SAS vertraut ist, kann jedoch auch Code aus den obigen Gleichungen bereitstellen.Konfidenzintervall für das Verhältnis
R
Konfidenzintervalle für
R
basieren normalerweise auf einer Poisson-Annahme fürO
, aber diese Annahme kann falsch sein.Wir können also überlegen
O
undE
unabhängig seinvar(log(E))
kann als ein weiterer Stata-Schritt nach der Berechnung von berechnet werdenvar(E)
.Unter der Annahme der Poisson-Unabhängigkeit:
Ein Programm wie Stata könnte beispielsweise in ein negatives Binomialmodell oder ein verallgemeinertes lineares Modell passen und Ihnen einen genaueren Varianzterm geben.
Ein ungefährer 90% CI für
log R
istund die Endpunkte können potenziert werden, um das CI für zu erhalten
R
.quelle
FWIW gibt es gute Ressourcen für das ACS und den Zugriff auf PUMS hier ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).
Außerdem gibt es ein Paket für den Umgang mit ACS-Daten auf dem CRAN - natürlich ACS genannt -, das ich als sehr hilfreich empfunden habe, um atypische Dinge mit ACS-Daten zu tun. Dies ist eine gute Schritt-für-Schritt-Anleitung für das Paket (leider ist die Dokumentation nicht sehr intuitiv) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf
quelle
Um dieses Problem mit freier Software zu lösen, möchte ich Sie bitten, die folgenden Schritte auszuführen: Hinzufügen zum Link http://asdfree.com in der Antwort von @ pricele2.
(1) ( zwei Stunden harte Arbeit ) machen Sie sich mit der Sprache vertraut. Sehen Sie sich die ersten 50 Videos zu je zwei Minuten an
http://twotorials.com/
(2) ( eine Stunde einfache Befolgung der Anweisungen ) Installieren Sie monetdb auf Ihrem Computer
http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html
(3) ( 30 Minuten Anweisungen folgen + Download über Nacht ) Laden Sie die ACS-Pums auf Ihren Computer herunter. Holen Sie sich nur die Jahre, die Sie brauchen.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R
(4) ( vier Stunden Lernen und Programmieren und Überprüfen Ihrer Arbeit ) Rekodieren Sie die Variablen, die Sie neu kodieren müssen, gemäß den von Ihnen gewünschten Spezifikationen
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R
(5) ( zwei Stunden tatsächliche Analyse ) Führen Sie den genauen Befehl aus, den Sie suchen, erfassen Sie den Standardfehler und berechnen Sie ein Konfidenzintervall.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R
(6) ( vier Stunden Programmierung ) Wenn Sie einen Verhältnisschätzer benötigen, folgen Sie hier dem Beispiel für die Verhältnisschätzung (mit korrekt an die Umfrage angepasstem Standardfehler):
https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552
quelle