Test auf IID-Probenahme

16

Wie würden Sie testen oder überprüfen, ob die Probenahme IID (Independent and Identically Distributed) ist? Beachten Sie, dass ich nicht Gaußsch und identisch verteilt meine, sondern nur IID.

Und mir fällt die Idee ein, die Stichprobe wiederholt in zwei gleich große Teilstichproben aufzuteilen, den Kolmogorov-Smirnov-Test durchzuführen und zu überprüfen, ob die Verteilung der p-Werte gleichmäßig ist.

Jeder Kommentar zu diesem Ansatz und jeder Vorschlag ist willkommen.

Klarstellung nach dem Start von Bounty: Ich suche einen allgemeinen Test, der auf Nicht-Zeitreihendaten angewendet werden kann.

gui11aume
quelle
Sind es Zeitreihendaten?
danas.zuokas
@ gui11aume hast du den "eyeball" test probiert? Zeichnen Sie also die Daten und prüfen Sie, ob sie als IID angezeigt werden.
Makro
Habe ich nicht Ich bin nicht sicher, was Sie meinen: Zeichnen Sie die Werte in der Reihenfolge, in der sie kommen (möglicherweise zufällig)? Und dann überprüfen Sie das Fehlen auffälliger Muster?
gui11aume
1
Hast du dir "the run test" angesehen? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
Stéphane Laurent
1
Es tut uns leid. Ich hatte den folgenden Test im Kopf: apprendre-en-ligne.net/random/run.html (aber das ist auf Französisch geschrieben)
Stéphane Laurent

Antworten:

14

Was Sie daraus schließen, wenn es sich bei den Daten um IID handelt, stammt von externen Informationen, nicht von den Daten selbst. Sie als Wissenschaftler müssen auf der Grundlage der Art und Weise, wie die Daten gesammelt wurden, und anderer externer Informationen feststellen, ob es sinnvoll ist, die Daten-IID anzunehmen.

Betrachten Sie einige Beispiele.

Szenario 1: Wir generieren einen Datensatz unabhängig von einer einzelnen Verteilung, die zufällig eine Mischung aus zwei Normalen ist.

Szenario 2: Wir generieren zuerst eine Geschlechtsvariable aus einer Binomialverteilung, dann generieren wir innerhalb von Männern und Frauen unabhängig Daten aus einer Normalverteilung (aber die Normalen sind für Männer und Frauen unterschiedlich), dann löschen oder verlieren wir die Geschlechtsinformationen.

In Szenario 1 sind die Daten IID und in Szenario 2 sind die Daten eindeutig nicht identisch verteilt (unterschiedliche Verteilungen für Männer und Frauen), aber die beiden Verteilungen für die beiden Szenarien sind von den Daten nicht unterscheidbar. Sie müssen wissen, wie die Daten aussehen wurde generiert, um die Differenz zu bestimmen.

Szenario 3: Ich nehme eine einfache Zufallsstichprobe von Menschen, die in meiner Stadt leben, führe eine Umfrage durch und analysiere die Ergebnisse, um Rückschlüsse auf alle Menschen in der Stadt zu ziehen.

Szenario 4: Ich nehme eine einfache Zufallsstichprobe von Menschen, die in meiner Stadt leben, führe eine Umfrage durch und analysiere die Ergebnisse, um Rückschlüsse auf alle Menschen im Land zu ziehen.

In Szenario 3 würden die Probanden als unabhängig betrachtet (einfache Zufallsstichprobe der interessierenden Bevölkerung), in Szenario 4 würden sie jedoch nicht als unabhängig angesehen, da sie aus einer kleinen Untergruppe der interessierenden Bevölkerung ausgewählt wurden und die geografische Nähe wahrscheinlich dazu führen würde Abhängigkeit. Die beiden Datensätze sind jedoch identisch. Wir beabsichtigen, die Daten so zu verwenden, dass festgestellt wird, ob sie in diesem Fall unabhängig oder abhängig sind.

Es gibt also keine Möglichkeit, nur anhand der Daten zu testen, ob es sich um IID-Daten handelt. Diagramme und andere Diagnosen können einige Arten von Nicht-IID-Daten anzeigen. Das Fehlen dieser Daten garantiert jedoch nicht, dass es sich um IID-Daten handelt. Sie können auch mit bestimmten Annahmen vergleichen (IID normal ist leichter zu widerlegen als nur IID). Jeder Test ist immer noch ein Ausschluss, aber wenn die Tests nicht abgelehnt werden, bedeutet dies niemals, dass es sich um eine IID handelt.

Entscheidungen darüber, ob Sie bereit sind anzunehmen, dass IID-Bedingungen zutreffen, müssen auf der Grundlage der wissenschaftlichen Erkenntnisse getroffen werden, wie die Daten erfasst wurden, in welcher Beziehung sie zu anderen Informationen stehen und wie sie verwendet werden.

Bearbeitungen:

Hier finden Sie weitere Beispiele für nicht identisch.

Szenario 5: Die Daten sind Residuen einer Regression, bei der Heteroskedastizität vorliegt (die Varianzen sind nicht gleich).

Szenario 6: Die Daten stammen aus einer Mischung von Normalen mit dem Mittelwert 0, aber unterschiedlichen Abweichungen.

In Szenario 5 können wir deutlich sehen, dass die Residuen nicht identisch verteilt sind, wenn wir die Residuen gegen angepasste Werte oder andere Variablen (Prädiktoren oder potenzielle Prädiktoren) zeichnen, aber die Residuen selbst (ohne die externen Informationen) wären nicht von Szenario 6 zu unterscheiden.

Greg Snow
quelle
Insbesondere der erste Teil dieser Antwort erscheint mir ein wenig verwirrt (oder verwirrend). Iid zu sein ist eine gut definierte mathematische Eigenschaft einer endlichen Menge von Zufallsvariablen . Ihre Szenarien 1 und 2 sind identisch, wenn die Zufallsvariablen im zweiten Fall "nach dem Verlust der Geschlechtsinformation" erhalten werden. Sie sind in beiden Fällen iid!
Kardinal
GregSnow Ich stimme Ihrer Behauptung nicht ganz zu. Möglicherweise wissen Sie, dass Daten aus einer Folge identisch verteilter Zufallsvariablen stammen. Sie wissen nicht genau, welches Modell es generiert hat. Es kann sein, dass sie unabhängig voneinander generiert werden oder alternativ aus einer stationären Zeitreihe stammen. Um zu entscheiden, was der Fall ist, setzen Sie voraus, dass Sie wissen, dass die identische Verteilung normal ist. Dann fallen beide Möglichkeiten unter die Kategorie einer stationären Folge , und es wird iid , wenn und nur alle Nicht - Null - Verzögerung Autokorrelationen 0 sind , ist es durchaus sinnvoll zu testen, ob die Correla
Michael R. Chernick
2
@cardinal, stimmen Sie also zu, dass die Daten in Szenario 2 nicht identisch verteilt werden, bevor die Geschlechtsinformationen verloren gehen? Wir hätten also einen Fall, in dem sie nicht identisch sind, aber der einzige Weg, den Unterschied zu erkennen, besteht darin, Informationen außerhalb der untersuchten Variablen (in diesem Fall Geschlecht) zu verwenden. Ja, IID ist eine gut definierte mathematische Eigenschaft, aber als Ganzzahl können Sie testen, ob der Datenpunkt 3 eine Ganzzahl ist, die als Gleitkommazahl oder als stetiger Wert gespeichert ist, der gerundet wurde, ohne dass Informationen darüber vorliegen, woher er stammt von.
Greg Snow
2
ZXiXj,ijXi|ZXj|ZZZ
Bei all Ihren obigen Aussagen werden jedoch Informationen darüber verwendet, wie die Daten gesammelt / generiert wurden, und nicht nur die Daten selbst. Und selbst wenn wir Daten haben, die belegen, dass es keine Autokorrelation von Zeitreihen gibt, die nichts über räumliche Korrelation oder andere Arten von Nichtunabhängigkeit aussagt. Können wir wirklich auf jede mögliche Art von Abhängigkeit testen und aussagekräftige Ergebnisse erzielen? oder sollten wir Informationen darüber verwenden, wie die Daten gesammelt wurden, um zu bestimmen, welche Tests am wahrscheinlichsten aussagekräftig sind?
Greg Snow
5

Wenn die Daten eine Indexreihenfolge haben, können Sie Tests für weißes Rauschen für Zeitreihen verwenden. Im Wesentlichen bedeutet dies, dass getestet wird, dass die Autokorrelationen bei allen Verzögerungen ungleich Null 0 sind. Dies behandelt den Unabhängigkeitsteil. Ich denke, Ihr Ansatz versucht, hauptsächlich den identisch verteilten Teil der Annahme anzusprechen. Ich denke, es gibt einige Probleme mit Ihrer Herangehensweise. Ich denke, Sie brauchen viele Teilungen, um genügend p-Werte zu erhalten, um die Homogenität zu testen. Dann verliert jeder KS-Test an Leistung. Wenn Sie Splits verwenden, die sich mit Teilen des Datensatzes überschneiden, werden die Tests korreliert. Bei einer kleinen Anzahl von Teilungen fehlt dem Test der Gleichmäßigkeit die Leistung. Bei vielen Teilungen ist der Homogenitätstest möglicherweise leistungsfähig, bei den KS-Tests jedoch nicht. Es scheint auch, dass dieser Ansatz nicht dazu beiträgt, die Abhängigkeit zwischen Variablen zu erkennen.

@ gu11aume Ich bin mir nicht sicher, wonach du mit einem allgemeinen Test für Nicht-Zeitreihen fragst. Geodaten stellen eine Form von Nicht-Zeitreihendaten bereit. Dort könnte die Funktion namens Variogramm angeschaut werden. Bei eindimensionalen Sequenzen sehe ich keinen großen Unterschied zwischen zeitlich geordneten Sequenzen und anderen Arten der Datenreihenfolge. Eine Autokorrelationsfunktion kann weiterhin definiert und getestet werden. Wenn Sie sagen, dass Sie die Unabhängigkeit bei der Probenahme testen möchten, haben Sie meiner Meinung nach eine Reihenfolge, in der die Proben gesammelt werden. Ich denke also, dass alle eindimensionalen Fälle auf die gleiche Weise funktionieren.

Michael R. Chernick
quelle
2
(+1) da dies das ist, was ich gedacht habe, aber Betreff: "Wenn die Daten eine Indexreihenfolge haben, können Sie Tests für weißes Rauschen für Zeitreihen verwenden. Dies bedeutet im Wesentlichen, dass die Autokorrelationen bei allen Nicht-Null-Verzögerungen 0 sind." - Diese Logik gilt nur, wenn es sich um eine stationäre Zeitreihe handelt, oder? Andernfalls könnten Sie irreführende Ergebnisse über die verzögerten Korrelationen erhalten. Was wäre zum Beispiel, wenn nur der "spätere" Teil der Zeitreihe automatisch korreliert würde?
Makro
1
@Macro Ich dachte, das war es, was Sie aufgrund Ihrer Frage an das OP im Sinn hatten. Aber ich hielt es nicht für notwendig, auf seine Antwort zu warten, um darauf hinzuweisen. Dies gilt, wenn Sie nach Unabhängigkeit suchen. Aber ich verstehe deinen Standpunkt. In der Praxis überprüfen Sie nur die ersten k Verzögerungen. Wenn die Reihe stationär wäre, würden die Korrelationen mit k abnehmen, nicht jedoch für nichtstationäre Reihen. Zumindest theoretisch würden Sie also die Korrelation bei großen Verzögerungen für eine nichtstationäre Reihe verpassen.
Michael R. Chernick
2
cor(yt,ys)=f(s,t)f(s,t)|st|
Danke für deine Antwort Michael! Sie haben Recht: Wenn es sich bei den Daten um Zeitreihen handelt, ist die Überprüfung der Autokorrelation der beste Ansatz. Was Ihre Kritik am Split-KS-Ansatz betrifft, haben Sie auch einen Punkt. Es scheint also, dass wir im allgemeinen Fall (ohne Zeitreihen) immer noch keinen Test haben.
gui11aume
2
Die erste Autokorrelation ungleich Null liegt bei Verzögerung 60 und nur bei anderen Vielfachen von 60. Wenn die Zeitreihe Länge 55 hat, können wir nicht einmal zwei 60er-Punkte-Verzögerungen beobachten. Sowe kann nicht überprüfen, ob die Korrelation der Verzögerung 60 0 ist oder nicht. Wenn die Länge der Reihe 65 beträgt, können wir die Korrelation der Verzögerung 60 abschätzen, jedoch auf der Grundlage von nur 5 Paaren der Verzögerung 60. Die Varianz der Schätzung ist also groß und wir werden nicht die Macht haben, diese Nicht-Null-Korrelation zu erkennen.
Michael R. Chernick