Statistischer Rückschluss, wenn die Stichprobe die Grundgesamtheit ist

47

Stellen Sie sich vor, Sie müssen über die Anzahl der Kandidaten berichten, die jährlich einen bestimmten Test ablegen. Es scheint ziemlich schwierig zu sein, den beobachteten Prozentsatz des Erfolgs beispielsweise bei einer breiteren Population zu bestimmen, da die Zielpopulation spezifisch ist. Sie können also davon ausgehen, dass diese Daten die gesamte Bevölkerung repräsentieren.

Sind Testergebnisse, die auf ein unterschiedliches Verhältnis von Männern und Frauen hinweisen, wirklich richtig? Scheint ein Test, der beobachtete und theoretische Anteile vergleicht, korrekt zu sein, da Sie eine ganze Population (und keine Stichprobe) betrachten?

hypothesis-testing population sampling pbneau
quelle

31

Es mag unterschiedliche Meinungen dazu geben, aber ich würde die Populationsdaten als Stichprobe behandeln und eine hypothetische Population annehmen und dann auf die übliche Weise Schlüsse ziehen. Eine Möglichkeit, darüber nachzudenken, besteht darin, dass ein zugrunde liegender Datenerzeugungsprozess für die gesammelten Daten, die "Bevölkerungsverteilung", verantwortlich ist.

In Ihrem speziellen Fall ist dies möglicherweise noch sinnvoller, da Sie in Zukunft Kohorten haben werden. Dann ist Ihre Bevölkerung wirklich Kohorten, die den Test auch in Zukunft machen. Auf diese Weise können Sie zeitliche Schwankungen berücksichtigen, wenn Sie Daten für mehr als ein Jahr haben, oder versuchen, latente Faktoren durch Ihr Fehlermodell zu berücksichtigen. Kurz gesagt, Sie können umfangreichere Modelle mit größerer Aussagekraft entwickeln.

ars
quelle

4

Ich bin gerade auf diesen Beitrag von A Gelman gestoßen: Wie unterscheidet sich die statistische Analyse bei der Analyse der gesamten Population von einer Stichprobe? , j.mp/cZ1WSI . Ein guter Ausgangspunkt für Meinungsverschiedenheiten über das Konzept der "Überbevölkerung".

chl 31.10.10

2

@chl: interessant - erinnert mich daran, dass Gelman in seiner Arbeit über ANOVA [ stat.columbia.edu/~gelman/research/published/econanova3.pdf eine Diskussion über endliche / superpopulationsbezogene Inferenz hatte, die mit festen / zufälligen Effekten vergleichbar ist ].

ars

+1 Ich bin gerade darauf zurückgekommen (über Google). Ich denke, dass Ihre Antwort genau richtig ist.

Shane

25

Wenn Sie sich wirklich sicher sind, dass Sie die gesamte Bevölkerung haben, brauchen Sie nicht einmal Statistiken zu erstellen. Dann wissen Sie genau, wie groß der Unterschied ist, und es gibt keinen Grund mehr, ihn zu testen. Ein klassischer Fehler ist die Verwendung statistischer Signifikanz als "relevante" Signifikanz. Wenn Sie die Population abgetastet haben, ist der Unterschied der, was es ist.

Wenn Sie andererseits Ihre Hypothese neu formulieren, können die Kandidaten als Stichprobe möglicher Kandidaten angesehen werden, die statistische Tests ermöglichen würden. In diesem Fall würden Sie im Allgemeinen testen, ob sich Mann und Frau bei dem vorliegenden Test unterscheiden.

Wie bereits erwähnt, können Sie mehrjährige Tests verwenden und die Zeit als Zufallsfaktor hinzufügen. Wenn Sie sich jedoch wirklich für die Unterschiede zwischen diesen Kandidaten in diesem speziellen Test interessieren, können Sie die Verallgemeinerung nicht verwenden, und das Testen ist sinnlos.

Joris Meys
quelle

15

Traditionell wird die statistische Inferenz im Zusammenhang mit Wahrscheinlichkeitsstichproben und der Art des Stichprobenfehlers gelehrt. Dieses Modell ist die Grundlage für den Signifikanztest. Es gibt jedoch auch andere Möglichkeiten, systematische Abweichungen vom Zufall zu modellieren, und es stellt sich heraus, dass unsere parametrischen (stichprobenbasierten) Tests tendenziell gute Annäherungen an diese Alternativen sind.

Parametrische Hypothesentests stützen sich auf die Stichprobentheorie, um Schätzungen des wahrscheinlichen Fehlers zu erhalten. Wenn einer Grundgesamtheit eine Stichprobe einer bestimmten Größe entnommen wird, sind Tests und Konfidenzintervalle nach Kenntnis der systematischen Art der Stichprobe von Bedeutung. Bei einer Population ist die Stichprobentheorie einfach nicht relevant und Tests sind im herkömmlichen Sinne nicht aussagekräftig. Inferenz ist nutzlos, es gibt nichts, worauf man schließen kann, es gibt nur das, was ... den Parameter selbst.

Einige umgehen dies, indem sie Superpopulationen ansprechen, für die die aktuelle Volkszählung steht. Ich finde diese Appelle nicht überzeugend - parametrische Tests basieren auf Wahrscheinlichkeitsstichproben und ihren Eigenschaften. Eine Population zu einem bestimmten Zeitpunkt kann eine Stichprobe einer größeren Population im Zeit- und Ortsverlauf sein. Ich sehe jedoch keine Möglichkeit, zu Recht zu behaupten, dass dies eine Zufallsstichprobe (oder allgemein eine Form einer Wahrscheinlichkeitsstichprobe) ist. Ohne eine Wahrscheinlichkeitsstichprobe sind die Stichprobentheorie und die traditionelle Logik des Testens einfach nicht anwendbar. Genauso gut können Sie anhand einer Convenience-Probe testen.

Um Tests bei der Verwendung einer Population zu akzeptieren, müssen wir natürlich auf die Grundlage dieser Tests bei Stichprobenverfahren verzichten. Ein Weg, dies zu tun, besteht darin, den engen Zusammenhang zwischen unseren probentheoretischen Tests - wie t, Z und F - und Randomisierungsverfahren zu erkennen. Randomisierungstests basieren auf der vorliegenden Stichprobe. Wenn ich Daten über das Einkommen von Männern und Frauen sammle, sind das Wahrscheinlichkeitsmodell und die Grundlage für unsere Fehlerschätzungen wiederholte zufällige Zuordnungen der tatsächlichen Datenwerte. Ich konnte beobachtete Unterschiede zwischen Gruppen mit einer Verteilung vergleichen, die auf dieser Randomisierung basierte. (Das machen wir übrigens immer wieder in Experimenten, bei denen die Zufallsauswahl aus einem Populationsmodell selten angemessen ist).

Nun stellt sich heraus, dass probentheoretische Tests oft gute Annäherungen an Randomisierungstests sind. Letztendlich denke ich, dass Tests aus Populationen in diesem Rahmen nützlich und sinnvoll sind und dazu beitragen können, systematische von zufälligen Variationen zu unterscheiden - genau wie bei stichprobenbasierten Tests. Die Logik, die verwendet wird, um dorthin zu gelangen, ist ein wenig anders, hat jedoch keinen großen Einfluss auf die praktische Bedeutung und Verwendung von Tests. Natürlich ist es möglicherweise besser, nur Randomisierungs- und Permutationstests zu verwenden, da diese bei all unserer modernen Rechenleistung leicht verfügbar sind.

Brett
quelle

3

+1 für die sinnvolle Diskussion; ein paar Punkte. Inferenzmechanismen sind für die Populationsanalyse nicht verfügbar, aber in vielen Modellierungsfällen würde ich die Frage stellen, ob man überhaupt die Populationsdaten hat - oft ist es nicht sehr schwer, Löcher zu stechen. Es ist also nicht immer ein Appell an eine Superpopulation als Mittel, um Schlussfolgerungen zu ziehen. Anstelle von "Superpopulation" ist der bessere Weg, einen Datenerzeugungsprozess anzunehmen, der zum Beispiel den Jahr-zu-Jahr-Test ergibt, bei dem Kohorten in Frage kommen. Hier entsteht die stochastische Komponente.

ars

2

Ich denke, dass es hier keine Meinungsverschiedenheiten gibt, mit Ausnahme des Mangels an Inferenzmechanismen für die Bevölkerungsanalyse. Randomisierungstests sind auf Populationen anwendbar und können angemessen testen, ob der Datenerzeugungsprozess wahrscheinlich auf einem zufälligen Erzeugungsprozess im Vergleich zu einem systematischen Erzeugungsprozess beruht. Sie gehen nicht von einer Zufallsstichprobe aus und sind eher ein direkter Test des Zufalls im Vergleich zu systematischen Variationen. Unsere traditionellen Tests stehen für sie ziemlich gut.

Brett

Das ist wahr bezüglich: "Mangel an Inferenzmaschinerie". Unvorsichtige Formulierungen meinerseits, zumal mir der Punkt, den Sie in Ihrer Antwort zu Randomisierungstests gemacht haben, gefallen hat.

ars

Es tut uns leid. Ich habe Schwierigkeiten zu verstehen, wie ich Permutationen berechnen würde und welche Schlussfolgerungen ich daraus ziehen kann.

Pbneau

Ist Bootstrapping keine gültige Alternative? Wie gelingt es dem Bootstrapping nicht, eine dieser Annahmen zu treffen?

Chernoff

3

Angenommen, die Ergebnisse deuten darauf hin, dass sich die Kandidaten nach Geschlecht unterscheiden. Zum Beispiel ist der Anteil derjenigen, die die Tests abgeschlossen haben, wie folgt: 40% weiblich und 60% männlich. Um das Offensichtliche zu verdeutlichen: 40% unterscheiden sich von 60%. Jetzt ist es wichtig zu entscheiden: 1) Ihre interessierende Bevölkerung; 2) Wie hängen Ihre Beobachtungen mit der interessierenden Bevölkerung zusammen? Hier einige Details zu diesen beiden Problemen:

Wenn es sich bei Ihrer interessierenden Population nur um die Kandidaten handelt, die Sie beobachtet haben (z. B. die 100 Kandidaten, die sich 2016 an einer Universität beworben haben), müssen Sie keine statistischen Signifikanztests melden. Dies liegt daran, dass Ihre interessierende Bevölkerung vollständig beprobt wurde. Alles, was Sie interessiert, sind die 100 Kandidaten, zu denen Sie vollständige Daten haben. Das heißt, 60% sind Punkt, anders als 40%. Die Art der Frage, auf die diese Antwort lautet: Gab es geschlechtsspezifische Unterschiede in der Bevölkerung von 100 Personen, die für das Programm zutrafen? Dies ist eine beschreibende Frage und die Antwort lautet Ja.
Viele wichtige Fragen beziehen sich jedoch darauf, was in unterschiedlichen Umgebungen passieren wird. Das heißt, viele Forscher möchten Trends über die Vergangenheit entwickeln, die uns helfen, die Zukunft vorherzusagen (und dann zu planen). Eine Beispielfrage in diesem Zusammenhang wäre: Wie wahrscheinlich ist es, dass zukünftige Tests von Kandidaten geschlechtsspezifisch unterschiedlich ausfallen? Die Population von Interesse ist dann breiter als in Szenario 1 oben. An dieser Stelle ist eine wichtige Frage zu stellen: Sind Ihre beobachteten Daten wahrscheinlich repräsentativ für zukünftige Trends? Dies ist eine inferentielle Frage, und basierend auf den Informationen, die das Originalplakat liefert, lautet die Antwort: Wir wissen es nicht.

Zusammenfassend hängt die von Ihnen gemeldete Statistik von der Art der Frage ab, die Sie beantworten möchten.

Das Nachdenken über Grundlagenforschung kann am hilfreichsten sein (versuchen Sie es hier: http://www.socialresearchmethods.net/kb/design.php ). Das Nachdenken über Superpopulationen kann hilfreich sein, wenn Sie erweiterte Informationen wünschen (hier ist ein Artikel, der hilfreich sein kann: http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1 ).

dca
quelle

2

Wenn Sie alles, was Sie messen, als zufälligen Prozess betrachten, sind statistische Tests relevant. Werfen Sie beispielsweise zehnmal eine Münze, um festzustellen, ob sie fair ist. Du bekommst 6 Köpfe und 4 Schwänze - was schlussfolgerst du?

James
quelle

1

Ich verstehe nicht wirklich, wie die Schlussfolgerung, zu der Sie über das Problem des Werfens einer Münze gelangt sind, mit der gestellten Frage zusammenhängt. Vielleicht könnten Sie in diesem Punkt etwas näher darauf eingehen? Statistische Tests scheinen insofern relevant zu sein, als sie dazu beitragen, die beobachteten Ergebnisse auf eine größere Population abzuleiten, unabhängig davon, ob es sich um eine Referenzbevölkerung oder eine allgemeine Population handelt. Hier scheint die Frage zu lauten: Ist die klassische Inferenz angesichts der Tatsache, dass sich die Stichprobe für einen festgelegten Zeitraum (hier ein Jahr) in der Nähe der Testpersonen befindet, der richtige Weg, um über mögliche Unterschiede auf individueller Ebene zu entscheiden?

CHL

1

@chl Ja, aber es scheint, dass OP versucht, eine zugrunde liegende Erfolgswahrscheinlichkeit abzuleiten. Die Tests vergleichen die beobachteten Anteile mit der theoretischen Verteilung, um festzustellen, ob für ein bestimmtes Vertrauensniveau ein Unterschied besteht. Sie testen auf jede Form von Zufälligkeit, nicht nur auf die Zufälligkeit von Stichprobenfehlern.

James

Statistischer Rückschluss, wenn die Stichprobe die Grundgesamtheit ist

Antworten: