Testen einer 2x2-Kontingenztabelle: männlich / weiblich, erwerbstätig / arbeitslos

8

Ich studiere Naturwissenschaften und meine statistischen Kenntnisse sind eher oberflächlich.

Problem

Ich musste einen Datensatz finden und nach besten Kräften als Aufgabe für meinen Statistikkurs analysieren. Dies ist keine Aufgabe mehr, ich brauche nur Hilfe bei der Interpretation, warum ich meine Analyse schlecht gemacht habe und was ich stattdessen hätte tun sollen.

Ich habe einen kategorialen Datensatz mit Beschäftigungsquoten in Neuseeland verwendet, um ihn in einer 2x2-Kontingenztabelle anzuordnen und den Pearson-Chi-Quadrat-Test und den genauen Fisher-Test zu verwenden, um zu testen, ob das Geschlecht mit der Beschäftigung korreliert.

Was ich beantworten möchte

  1. Verstehen Sie, warum ich den Chi-Quadrat-Test und den genauen Fisher-Test für dieses Problem nicht verwenden kann, und erfahren Sie, was ich stattdessen hätte verwenden sollen. "Odds-Ratio als Funktion der Zeit", nehme ich an? Irgendwelche nützlichen Links dazu, perfekt in R?
  2. Verstehen Sie den Kommentar "Sequentielle Korrelation" zum ersten Teil der Aufgabe und was genau hätte ich tun sollen.

Weg, um mir zu helfen # 1 (kürzer)

So sehen unsere Daten aus (basierend auf einer Volkszählung):

                 Male     Female
Employed      1201600    1060200
Unemployed      73300      75000

Ich habe einen Chi-Quadrat-Test und einen genauen Fisher-Test in R durchgeführt, wobei angenommen wurde, dass der erhaltene p-Wert mir die Wahrscheinlichkeit einer solchen Verteilung von Arbeitsplätzen (oder eines weiteren Extrems) angibt, vorausgesetzt, dass die Null wahr ist (Männer und Frauen) gleiche Chancen haben, einen Job zu bekommen). Ich habe einen sehr kleinen p-Wert erhalten, und der Fisher-Test ergab eine Quote von 1,16, was bedeutet, dass eine Korrelation besteht und insbesondere Männer mit 16% höherer Wahrscheinlichkeit einen Job in Neuseeland finden.

Laut meinem Dozenten habe ich diese Tests jedoch unangemessen verwendet. Ich habe nicht ganz verstanden, warum, aber ich glaube, er hat gesagt, dass diese Tests Unabhängigkeit voraussetzen, und weil in Neuseeland eine bestimmte Anzahl von Jobs verfügbar ist, sind unsere Stichproben nicht unabhängig ... Ich bin mir jedoch nicht sicher (Sie) kann sein unten zitiertes Feedback sehen).

Weg, um mir zu helfen # 2 (länger)

Wenn Sie etwas Freizeit haben, würde ich mich sehr freuen, wenn Sie sich die gesamte Aufgabe ansehen könnten. Ich werde auch das Feedback des Dozenten geben. Wenn Sie es also für mich interpretieren könnten, wäre es großartig! Die Aufgabe ist für einen Mathematiker / Statistiker sehr einfach, es gibt nur zwei Fragen, es ist nur voller Polsterung, wo ich zu zeigen versuchte, dass ich weiß, was ich tue. Sie können das meiste davon überspringen.

Hier ist der Link zu einer PDF-Datei mit der Aufgabe, die mir nicht gelungen ist: Statistikzuweisung.pdf .

Feedback des Dozenten

Ihre Abbildung 1 zeigt eine sequentielle Korrelation, was der wahre Grund ist, warum die lineare Regression nicht funktioniert. Weder Fischertest noch Chi-Quadrat sind gut für Ihren 2x2-Tisch. Dies liegt daran, dass Sie die Homogenität testen möchten, aber die Null wegen Nichtunabhängigkeit ablehnen (was nicht interessant ist). Die Unterscheidung zwischen den beiden ist hier irrelevant (sie sind in jedem Fall asymptotisch identisch). Sie hätten das Quotenverhältnis als Funktion der Zeit zeichnen können.

Th334
quelle
Sie könnten das Selbststudium Tag hinzufügen
Tomka
3
@tomka Ich bin mit dem Selbststudien- Tag in diesem Fall nicht einverstanden und habe es daher entfernt. Diese Frage befasst sich mit tatsächlichen Daten und betrifft ein echtes Problem, nicht nur eine routinemäßige Lehrbuchsituation. Die Kriterien für das Selbststudien- Tag sind nicht, ob die Frage aus der Arbeit im Klassenzimmer stammt, sondern die Art der Frage selbst. Bitte besuchen Sie die Meta-Threads meta.stats.stackexchange.com/questions/1904 und meta.stats.stackexchange.com/questions/1172, um weitere Informationen zu erhalten oder dies zu diskutieren.
whuber
1
Basieren diese Beschäftigungszahlen auf einer Volkszählung oder einer gewichteten Umfragedatei (dh einer Stichprobe)?
Wahrscheinlichkeitslogik
@ Tomka und Whuber, es macht mir eigentlich nichts aus, aber das ist keine typische Hausaufgabe, wenn du das meinst. Es könnte auch eine Dissertation in dem Sinne sein, dass die einzigen Anweisungen darin bestanden, Daten zu sammeln und zu analysieren.
Th334
@probabilityislogic, guter Punkt, es ist Volkszählung (kleines Land). Beeinflusst es die Art und Weise, wie wir mit den Daten umgehen sollen?
Th334

Antworten:

2

Einige sofortige Antworten:

1) Ihr Dozent bedeutet, dass die Daten eine Autokorrelation zeigen. Dies führt zu ineffizienten Schätzungen der Regressionskoeffizienten bei einfacher linearer Regression. Je nachdem, ob es in Ihrem Kurs behandelt wurde, ist das ein Fehler.

2) Vielleicht verstehe ich das Problem nicht vollständig, aber IMAO, der Chi-Quadrat-Test der Unabhängigkeit, wird hier korrekt verwendet, mit Ausnahme von zwei anderen Problemen:

3) Ihr Chi-Quadrat-Test hat aufgrund der Stichprobengröße eine immense Leistung. Es ist schwer, nicht signifikant zu sein, selbst wenn die Effekte sehr gering waren. Darüber hinaus scheint es, dass Sie eine Volkszählung haben. In dieser Situation ist eine statistische Inferenz nicht erforderlich, da Sie alle Bevölkerungseinheiten beobachten. Aber das bemerkt der Dozent nicht.

4) Sie scheinen die Daten über Zeitpunkte hinweg zu aggregieren. Sie sollten tatsächlich einmal pro Zeitpunkt testen, da Sie sonst die Effekte über die Zeit aggregieren (Sie zählen Einheiten mehrmals). Aber das bemerkt der Dozent auch nicht.

Der Dozent bemerkt tatsächlich, dass Sie die Null der Homogenität testen möchten, während Sie die Null der Unabhängigkeit testen. Was meint er mit Homogenität?

Ich nehme an, er bezieht sich auf den Test der marginalen Homogenität in gepaarten Testdaten. Mit diesem Test wird beurteilt, ob sich im Laufe der Zeit etwas geändert hat (wiederholte Messungen). Dies ist jedoch nicht das, was Sie überhaupt beurteilen möchten. Ich vermute, dass er nicht verstanden hat, dass Sie testen möchten, ob Geschlecht und Beschäftigung zum Zeitpunkt x zusammenhängen. Vielleicht hat er auch versucht vorzuschlagen, dass Sie eine zeitliche Änderung testen sollten (oder keine Änderung. In diesem Fall würde die mehrfach wiederholte Kontingenz tatsächlich als homogen bezeichnet).

Tomka
quelle
1) Könnte ich eine kurze Beschreibung (oder einen Link) erhalten, was eine Autokorrelation ist und wie sie zu Verzerrungen führt? 3) Also ist ein statistischer Test hier wegen der Volkszählung unangemessen? Wie könnte ich dann meine Frage beantworten? 4) Von welchem ​​Test sprichst du: Regression oder Chi-Quadrat? In letzterem habe ich mich nur auf den letzten Datenpunkt konzentriert - die letzte Volkszählung.
Th334
@Herman 1) Ich habe einen Fehler gemacht: Die Regressionsparameter sind ineffizient, was bedeutet, dass der OLS-Schätzer nicht mehr der beste Schätzer ist, dh seine Varianz kann sehr groß sein, was zu falsch unbedeutenden Tests führt. Vielleicht ist dies ein Anfang für einige Details: stats.stackexchange.com/questions/19321/… 3) Ja, wenn Sie alle Populationseinheiten beobachten, müssen Sie keine Rückschlüsse auf Populationsparameter ziehen, die Sie ohne Stichprobenfehler beobachten. 4) Chi- kariert. In diesem Fall gilt Kommentar 4 nicht.
Tomka
1

Es ist ein sehr undurchsichtiges Feedback - hört sich für mich so an, als würden sie sagen "Sie haben diesmal nicht gut abgeschnitten - versuchen Sie es beim nächsten Mal stärker". Der einzige Weg, dies zu verstehen, besteht darin, mutig zu sein und Ihren Dozenten um ein Treffen zu bitten, um die Dinge weiter zu besprechen.

Ihr Dozent scheint von Ihrer Wahl der Forschungsfragen vielleicht enttäuscht zu sein? Ich denke, sie haben vielleicht nach "Modewörtern" wie "Auto- / Serien- / Korrelation", "Zeitreihen", "saisonalen Effekten / Anpassung", "Konjunkturzyklen", "Trend" gesucht. Ich weiß nicht, was Sie bei der Ausführung des Auftrags erwartet haben.

Wie auch immer, hier ist was ich denke.

Ihre Aufgabe zeigt eine gute Fähigkeit, einen statistischen Test durchzuführen, zeigt jedoch aus Sicht der Datenanalyse eine seltsame Auswahl an Beispielen. Bei der Analyse sollte es darum gehen, eine Geschichte zu erzählen. Persönlich gefiel mir die Wahl zwischen männlicher und weiblicher Beschäftigung als Thema. Allerdings hätte ich das "zweite Beispiel" an die erste Stelle gesetzt, da es eine einfachere Frage ist "Gibt es jetzt einen geschlechtsspezifischen Unterschied ?? ". Nachdem Sie gezeigt haben, dass es eindeutig einen Unterschied gibt (wie Sie), hätten Sie dann zu der komplexeren Frage übergehen können:" Gab es im Laufe der Zeit einen konsistenten geschlechtsspezifischen Unterschied? "Natürlich kann diese Frage den Rahmen von sprengen Ihre "statistische Toolbox", um auf formale Weise zu antworten. Eine Möglichkeit, dies mit linearer Regression zu tun, besteht darin, die Chancen zu modellieren, für Männer und Frauen im Vergleich zu Arbeitslosen (oder Log-Quoten, wenn dies besser passt) zu modellieren habe ein einfaches ols Modell von

yi=β0+β1xi+ei

yixieiβ1=0

Ich hätte dieses erste Beispiel überhaupt nicht verwendet, natürlich war eine lineare Regression unangemessen. Ihr Dozent möchte (wahrscheinlich) ein Beispiel für eine gute Verwendung der linearen Regression sehen. Natürlich ist das oben genannte alte Beispiel möglicherweise auch nicht angemessen - dies hängt von der Bewertung des Modells ab.

Wahrscheinlichkeitslogik
quelle
@probabilityslogic, ich werde dir sagen, was ich wissen sollte. In meinen zwei verschiedenen Statistikkursen zusammen haben wir mit verschiedenen Detaillierungsgraden Folgendes behandelt: bi (multi) nomiale Verteilung, Normalverteilung, t.test, Anova, Chi-Quadrat / Fischer-exakte, lineare / logistische Regression, hypogeometrische Verteilung, Bayes-Theorem , Beta-Verteilung. Das ist es. Hatte ich bessere Werkzeuge, um mit meiner gewählten Frage umzugehen, als ich verwendet habe?
Th334
@probabilityslogic, ich verstehe nicht ganz, wie man "lineare Regression durchführt, um die Chancen zu modellieren, für Männer und Frauen beschäftigt oder arbeitslos zu sein". Könnten Sie bitte versuchen, es anhand der Zahlen aus meinen Daten zu erklären oder mir R-Redewendungen zu zeigen, oder mich mit dem verknüpfen, was ich lesen sollte, wenn Sie können, oder vorschlagen, dass ich eine neue Frage stelle? Was die theoretischen Gleichungen angeht, verstehe ich, dass in Ihrem Beispiel Beta-0 unser Achsenabschnitt ist, Beta-1 unsere Steigung ist, x unsere Daten sind und e ein Fehler ist ... was bedeutet, dass ich nichts verstehe . Wie peinlich, tut mir leid.
Th334