Ich studiere Naturwissenschaften und meine statistischen Kenntnisse sind eher oberflächlich.
Problem
Ich musste einen Datensatz finden und nach besten Kräften als Aufgabe für meinen Statistikkurs analysieren. Dies ist keine Aufgabe mehr, ich brauche nur Hilfe bei der Interpretation, warum ich meine Analyse schlecht gemacht habe und was ich stattdessen hätte tun sollen.
Ich habe einen kategorialen Datensatz mit Beschäftigungsquoten in Neuseeland verwendet, um ihn in einer 2x2-Kontingenztabelle anzuordnen und den Pearson-Chi-Quadrat-Test und den genauen Fisher-Test zu verwenden, um zu testen, ob das Geschlecht mit der Beschäftigung korreliert.
Was ich beantworten möchte
- Verstehen Sie, warum ich den Chi-Quadrat-Test und den genauen Fisher-Test für dieses Problem nicht verwenden kann, und erfahren Sie, was ich stattdessen hätte verwenden sollen. "Odds-Ratio als Funktion der Zeit", nehme ich an? Irgendwelche nützlichen Links dazu, perfekt in R?
- Verstehen Sie den Kommentar "Sequentielle Korrelation" zum ersten Teil der Aufgabe und was genau hätte ich tun sollen.
Weg, um mir zu helfen # 1 (kürzer)
So sehen unsere Daten aus (basierend auf einer Volkszählung):
Male Female
Employed 1201600 1060200
Unemployed 73300 75000
Ich habe einen Chi-Quadrat-Test und einen genauen Fisher-Test in R durchgeführt, wobei angenommen wurde, dass der erhaltene p-Wert mir die Wahrscheinlichkeit einer solchen Verteilung von Arbeitsplätzen (oder eines weiteren Extrems) angibt, vorausgesetzt, dass die Null wahr ist (Männer und Frauen) gleiche Chancen haben, einen Job zu bekommen). Ich habe einen sehr kleinen p-Wert erhalten, und der Fisher-Test ergab eine Quote von 1,16, was bedeutet, dass eine Korrelation besteht und insbesondere Männer mit 16% höherer Wahrscheinlichkeit einen Job in Neuseeland finden.
Laut meinem Dozenten habe ich diese Tests jedoch unangemessen verwendet. Ich habe nicht ganz verstanden, warum, aber ich glaube, er hat gesagt, dass diese Tests Unabhängigkeit voraussetzen, und weil in Neuseeland eine bestimmte Anzahl von Jobs verfügbar ist, sind unsere Stichproben nicht unabhängig ... Ich bin mir jedoch nicht sicher (Sie) kann sein unten zitiertes Feedback sehen).
Weg, um mir zu helfen # 2 (länger)
Wenn Sie etwas Freizeit haben, würde ich mich sehr freuen, wenn Sie sich die gesamte Aufgabe ansehen könnten. Ich werde auch das Feedback des Dozenten geben. Wenn Sie es also für mich interpretieren könnten, wäre es großartig! Die Aufgabe ist für einen Mathematiker / Statistiker sehr einfach, es gibt nur zwei Fragen, es ist nur voller Polsterung, wo ich zu zeigen versuchte, dass ich weiß, was ich tue. Sie können das meiste davon überspringen.
Hier ist der Link zu einer PDF-Datei mit der Aufgabe, die mir nicht gelungen ist: Statistikzuweisung.pdf .
Feedback des Dozenten
Ihre Abbildung 1 zeigt eine sequentielle Korrelation, was der wahre Grund ist, warum die lineare Regression nicht funktioniert. Weder Fischertest noch Chi-Quadrat sind gut für Ihren 2x2-Tisch. Dies liegt daran, dass Sie die Homogenität testen möchten, aber die Null wegen Nichtunabhängigkeit ablehnen (was nicht interessant ist). Die Unterscheidung zwischen den beiden ist hier irrelevant (sie sind in jedem Fall asymptotisch identisch). Sie hätten das Quotenverhältnis als Funktion der Zeit zeichnen können.
Antworten:
Einige sofortige Antworten:
1) Ihr Dozent bedeutet, dass die Daten eine Autokorrelation zeigen. Dies führt zu ineffizienten Schätzungen der Regressionskoeffizienten bei einfacher linearer Regression. Je nachdem, ob es in Ihrem Kurs behandelt wurde, ist das ein Fehler.
2) Vielleicht verstehe ich das Problem nicht vollständig, aber IMAO, der Chi-Quadrat-Test der Unabhängigkeit, wird hier korrekt verwendet, mit Ausnahme von zwei anderen Problemen:
3) Ihr Chi-Quadrat-Test hat aufgrund der Stichprobengröße eine immense Leistung. Es ist schwer, nicht signifikant zu sein, selbst wenn die Effekte sehr gering waren. Darüber hinaus scheint es, dass Sie eine Volkszählung haben. In dieser Situation ist eine statistische Inferenz nicht erforderlich, da Sie alle Bevölkerungseinheiten beobachten. Aber das bemerkt der Dozent nicht.
4) Sie scheinen die Daten über Zeitpunkte hinweg zu aggregieren. Sie sollten tatsächlich einmal pro Zeitpunkt testen, da Sie sonst die Effekte über die Zeit aggregieren (Sie zählen Einheiten mehrmals). Aber das bemerkt der Dozent auch nicht.
Der Dozent bemerkt tatsächlich, dass Sie die Null der Homogenität testen möchten, während Sie die Null der Unabhängigkeit testen. Was meint er mit Homogenität?
Ich nehme an, er bezieht sich auf den Test der marginalen Homogenität in gepaarten Testdaten. Mit diesem Test wird beurteilt, ob sich im Laufe der Zeit etwas geändert hat (wiederholte Messungen). Dies ist jedoch nicht das, was Sie überhaupt beurteilen möchten. Ich vermute, dass er nicht verstanden hat, dass Sie testen möchten, ob Geschlecht und Beschäftigung zum Zeitpunkt x zusammenhängen. Vielleicht hat er auch versucht vorzuschlagen, dass Sie eine zeitliche Änderung testen sollten (oder keine Änderung. In diesem Fall würde die mehrfach wiederholte Kontingenz tatsächlich als homogen bezeichnet).
quelle
Es ist ein sehr undurchsichtiges Feedback - hört sich für mich so an, als würden sie sagen "Sie haben diesmal nicht gut abgeschnitten - versuchen Sie es beim nächsten Mal stärker". Der einzige Weg, dies zu verstehen, besteht darin, mutig zu sein und Ihren Dozenten um ein Treffen zu bitten, um die Dinge weiter zu besprechen.
Ihr Dozent scheint von Ihrer Wahl der Forschungsfragen vielleicht enttäuscht zu sein? Ich denke, sie haben vielleicht nach "Modewörtern" wie "Auto- / Serien- / Korrelation", "Zeitreihen", "saisonalen Effekten / Anpassung", "Konjunkturzyklen", "Trend" gesucht. Ich weiß nicht, was Sie bei der Ausführung des Auftrags erwartet haben.
Wie auch immer, hier ist was ich denke.
Ihre Aufgabe zeigt eine gute Fähigkeit, einen statistischen Test durchzuführen, zeigt jedoch aus Sicht der Datenanalyse eine seltsame Auswahl an Beispielen. Bei der Analyse sollte es darum gehen, eine Geschichte zu erzählen. Persönlich gefiel mir die Wahl zwischen männlicher und weiblicher Beschäftigung als Thema. Allerdings hätte ich das "zweite Beispiel" an die erste Stelle gesetzt, da es eine einfachere Frage ist "Gibt es jetzt einen geschlechtsspezifischen Unterschied ?? ". Nachdem Sie gezeigt haben, dass es eindeutig einen Unterschied gibt (wie Sie), hätten Sie dann zu der komplexeren Frage übergehen können:" Gab es im Laufe der Zeit einen konsistenten geschlechtsspezifischen Unterschied? "Natürlich kann diese Frage den Rahmen von sprengen Ihre "statistische Toolbox", um auf formale Weise zu antworten. Eine Möglichkeit, dies mit linearer Regression zu tun, besteht darin, die Chancen zu modellieren, für Männer und Frauen im Vergleich zu Arbeitslosen (oder Log-Quoten, wenn dies besser passt) zu modellieren habe ein einfaches ols Modell von
Ich hätte dieses erste Beispiel überhaupt nicht verwendet, natürlich war eine lineare Regression unangemessen. Ihr Dozent möchte (wahrscheinlich) ein Beispiel für eine gute Verwendung der linearen Regression sehen. Natürlich ist das oben genannte alte Beispiel möglicherweise auch nicht angemessen - dies hängt von der Bewertung des Modells ab.
quelle