Warum setzen mehrere (wenn nicht alle) parametrische Hypothesentests eine Zufallsstichprobe voraus?

Tests wie Z, t und einige andere gehen davon aus, dass die Daten auf einer Zufallsstichprobe basieren. Warum?

Angenommen, ich mache experimentelle Forschungen, bei denen mir die interne Gültigkeit viel mehr am Herzen liegt als die externe. Also, wenn meine Stichprobe ein bisschen voreingenommen sein könnte, okay, da ich zugestimmt habe, die Hypothese nicht für die gesamte Population abzuleiten. Und die Gruppierung wird immer noch zufällig sein, dh ich werde die Probenteilnehmer der Einfachheit halber auswählen, aber ich werde sie zufällig verschiedenen Gruppen zuordnen.

Warum kann ich diese Annahme nicht einfach ignorieren?

hypothesis-testing sampling parametric randomness Bruno
quelle

Wenn die Abtasttechnik eine Verzerrung einführt, dann ist sie nicht 'zufällig'. Wenn es keine Verzerrung einführt, ist es 'zufällig' (für eine Definition von zufällig ;-). Ich hatte Stichprobenpläne, bei denen einfach jede 7. Stichprobe genommen wurde, um eine der Gegenstichprobe entsprechende Stichprobengröße zu erhalten. Ich wusste jedoch, dass diese Auswahl keinen besonderen Aspekt aufwies, weshalb das, was als nicht-zufälliger Stichprobenprozess angesehen werden konnte, immer noch effektiv zufällig war. Es ist dasselbe wie bei der Auswahl der Bälle 1,2,3,4,5,6 bei der Lotterie. Es ist genauso zufällig wie jede andere Sequenz.

Philip Oakley

@PhilipOakley: Wenn Sie die Kugeln 1,2,3,4,5,6 in der Lotterie auswählen, haben Sie die gleichen Gewinnchancen wie bei jeder anderen Auswahl, verringern jedoch Ihre erwarteten Gewinne, da Sie den Preis mit größerer Wahrscheinlichkeit mit anderen teilen müssen hatte die gleiche Idee

Henry

Systematische Stichproben, wie sie von @Philip beschrieben werden, werden oft so analysiert, als ob sie einfache Zufallsstichproben ergeben, haben aber Fallstricke. Wenn Sie beispielsweise jeden Tag einen Herstellungsprozess messen und jede siebte Messung durchführen, können Sie Ihre Ergebnisse mit einem Wochentagseffekt verwechseln, da Sie (offensichtlich) am selben Tag eine Probenahme durchführen jede Woche. Sie müssen härter arbeiten, um über solche Feinheiten nachzudenken und sie anzugehen, wenn Sie sich mit nicht zufälligen Stichproben befassen.

whuber

@whuber, auf jeden Fall. Man muss über diese Dinge gründlich nachdenken !! In meinem Fall hatte ich stundenlanges Video mit Hunderten von Ereignissen und großen Lücken dazwischen. Daher musste die Datengröße des Nichtereignissatzes für eine einfache logistische Regression reduziert werden (jeder Frame wird unabhängig betrachtet, wenig Änderung zwischen den Frames) Es war vernünftig, viele Nicht-Ereignis-Frames zu löschen. Der zeitliche Ablauf wurde gesondert betrachtet.

Philip Oakley

@Philip Interessanterweise veröffentlichte das NIST fast zur gleichen Zeit, als Sie diesen Kommentar über nicht vorhandene Zufälligkeit verfassten, eine Pressemitteilung , in der es behauptete, dass dies der Fall sei . Ein Bericht erscheint in der heutigen Ausgabe (4. April 2018) von Nature .

whuber

Antworten:

Wenn Sie keinen Rückschluss auf eine größere Gruppe als Ihre tatsächliche Stichprobe ziehen, werden in erster Linie keine statistischen Tests angewendet, und die Frage nach der "Verzerrung" stellt sich nicht. In diesem Fall berechnen Sie nur die bekannten deskriptiven Statistiken Ihrer Stichprobe. In ähnlicher Weise gibt es in diesem Fall keine Frage der "Gültigkeit" des Modells - Sie beobachten lediglich Variablen und zeichnen deren Werte sowie Beschreibungen von Aspekten dieser Werte auf.

Wenn Sie sich dazu entschließen, über Ihre Stichprobe hinauszugehen, um Rückschlüsse auf eine größere Gruppe zu ziehen, benötigen Sie Statistiken und müssen Probleme wie Stichprobenverzerrung usw. berücksichtigen Schlussfolgerungen der breiteren Interessensgruppe. Wenn Sie keine Zufallsstichprobe haben (und die Wahrscheinlichkeiten Ihrer Stichproben in Abhängigkeit von der Grundgesamtheit nicht kennen), ist es schwierig / unmöglich, verlässliche Rückschlüsse auf die Grundgesamtheit zu ziehen.

Setzen Sie Monica wieder ein
quelle

In der realen wissenschaftlichen Forschung ist es ziemlich selten, dass Daten aus echten Zufallsstichproben stammen. Bei den Daten handelt es sich fast immer um Bequemlichkeitsproben. Dies wirkt sich hauptsächlich auf die Population aus, auf die Sie verallgemeinern können. Das heißt, auch wenn es sich um eine Convenience-Stichprobe handelt, die von irgendwoher stammt, müssen Sie sich nur darüber im Klaren sein, wo und welche Einschränkungen dies impliziert. Wenn Sie wirklich der Meinung sind, dass Ihre Daten für nichts repräsentativ sind, lohnt sich Ihre Studie auf keiner Ebene, aber das ist wahrscheinlich nicht wahr ¹ . Daher ist es oft sinnvoll, Ihre Proben als von irgendwoher gezogen zu betrachten und diese Standardtests zumindest in einem abgesicherten oder qualifizierten Sinne zu verwenden.

Es gibt jedoch eine andere Testphilosophie, die besagt, dass wir uns von diesen Annahmen und den darauf basierenden Tests entfernen sollten. Tukey war ein Verfechter davon. Stattdessen wird die meiste experimentelle Forschung als (intern) gültig angesehen, da die Lerneinheiten (z. B. Patienten) zufällig den Armen zugewiesen wurden. Vor diesem Hintergrund können Sie Permutationstests verwenden , bei denen meist nur davon ausgegangen wird, dass die Randomisierung korrekt durchgeführt wurde. Das Gegenargument, um sich zu viele Sorgen darüber zu machen, ist, dass Permutationstests in der Regel dasselbe wie die entsprechenden klassischen Tests zeigen und mehr Arbeit erfordern. Auch hier können Standardtests akzeptabel sein.

_{1. In diesem Sinne kann es hilfreich sein, meine Antwort hier zu lesen: Identifizierung der Population und der Stichproben in einer Studie .}

gung - Wiedereinsetzung von Monica
quelle

Tests wie Z, t und einige andere basieren auf bekannten Stichprobenverteilungen der relevanten Statistiken. Diese allgemein verwendeten Stichprobenverteilungen werden für die aus einer Zufallsstichprobe berechnete Statistik definiert.

Es kann manchmal möglich sein, eine relevante Stichprobenverteilung für nicht-zufällige Stichproben zu erstellen, aber im Allgemeinen ist dies wahrscheinlich nicht möglich.

Michael Lew
quelle