Wie würden Sie testen oder überprüfen, ob die Probenahme IID (Independent and Identically Distributed) ist? Beachten Sie, dass ich nicht Gaußsch und identisch verteilt meine, sondern nur IID.
Und mir fällt die Idee ein, die Stichprobe wiederholt in zwei gleich große Teilstichproben aufzuteilen, den Kolmogorov-Smirnov-Test durchzuführen und zu überprüfen, ob die Verteilung der p-Werte gleichmäßig ist.
Jeder Kommentar zu diesem Ansatz und jeder Vorschlag ist willkommen.
Klarstellung nach dem Start von Bounty: Ich suche einen allgemeinen Test, der auf Nicht-Zeitreihendaten angewendet werden kann.
Antworten:
Was Sie daraus schließen, wenn es sich bei den Daten um IID handelt, stammt von externen Informationen, nicht von den Daten selbst. Sie als Wissenschaftler müssen auf der Grundlage der Art und Weise, wie die Daten gesammelt wurden, und anderer externer Informationen feststellen, ob es sinnvoll ist, die Daten-IID anzunehmen.
Betrachten Sie einige Beispiele.
Szenario 1: Wir generieren einen Datensatz unabhängig von einer einzelnen Verteilung, die zufällig eine Mischung aus zwei Normalen ist.
Szenario 2: Wir generieren zuerst eine Geschlechtsvariable aus einer Binomialverteilung, dann generieren wir innerhalb von Männern und Frauen unabhängig Daten aus einer Normalverteilung (aber die Normalen sind für Männer und Frauen unterschiedlich), dann löschen oder verlieren wir die Geschlechtsinformationen.
In Szenario 1 sind die Daten IID und in Szenario 2 sind die Daten eindeutig nicht identisch verteilt (unterschiedliche Verteilungen für Männer und Frauen), aber die beiden Verteilungen für die beiden Szenarien sind von den Daten nicht unterscheidbar. Sie müssen wissen, wie die Daten aussehen wurde generiert, um die Differenz zu bestimmen.
Szenario 3: Ich nehme eine einfache Zufallsstichprobe von Menschen, die in meiner Stadt leben, führe eine Umfrage durch und analysiere die Ergebnisse, um Rückschlüsse auf alle Menschen in der Stadt zu ziehen.
Szenario 4: Ich nehme eine einfache Zufallsstichprobe von Menschen, die in meiner Stadt leben, führe eine Umfrage durch und analysiere die Ergebnisse, um Rückschlüsse auf alle Menschen im Land zu ziehen.
In Szenario 3 würden die Probanden als unabhängig betrachtet (einfache Zufallsstichprobe der interessierenden Bevölkerung), in Szenario 4 würden sie jedoch nicht als unabhängig angesehen, da sie aus einer kleinen Untergruppe der interessierenden Bevölkerung ausgewählt wurden und die geografische Nähe wahrscheinlich dazu führen würde Abhängigkeit. Die beiden Datensätze sind jedoch identisch. Wir beabsichtigen, die Daten so zu verwenden, dass festgestellt wird, ob sie in diesem Fall unabhängig oder abhängig sind.
Es gibt also keine Möglichkeit, nur anhand der Daten zu testen, ob es sich um IID-Daten handelt. Diagramme und andere Diagnosen können einige Arten von Nicht-IID-Daten anzeigen. Das Fehlen dieser Daten garantiert jedoch nicht, dass es sich um IID-Daten handelt. Sie können auch mit bestimmten Annahmen vergleichen (IID normal ist leichter zu widerlegen als nur IID). Jeder Test ist immer noch ein Ausschluss, aber wenn die Tests nicht abgelehnt werden, bedeutet dies niemals, dass es sich um eine IID handelt.
Entscheidungen darüber, ob Sie bereit sind anzunehmen, dass IID-Bedingungen zutreffen, müssen auf der Grundlage der wissenschaftlichen Erkenntnisse getroffen werden, wie die Daten erfasst wurden, in welcher Beziehung sie zu anderen Informationen stehen und wie sie verwendet werden.
Bearbeitungen:
Hier finden Sie weitere Beispiele für nicht identisch.
Szenario 5: Die Daten sind Residuen einer Regression, bei der Heteroskedastizität vorliegt (die Varianzen sind nicht gleich).
Szenario 6: Die Daten stammen aus einer Mischung von Normalen mit dem Mittelwert 0, aber unterschiedlichen Abweichungen.
In Szenario 5 können wir deutlich sehen, dass die Residuen nicht identisch verteilt sind, wenn wir die Residuen gegen angepasste Werte oder andere Variablen (Prädiktoren oder potenzielle Prädiktoren) zeichnen, aber die Residuen selbst (ohne die externen Informationen) wären nicht von Szenario 6 zu unterscheiden.
quelle
Wenn die Daten eine Indexreihenfolge haben, können Sie Tests für weißes Rauschen für Zeitreihen verwenden. Im Wesentlichen bedeutet dies, dass getestet wird, dass die Autokorrelationen bei allen Verzögerungen ungleich Null 0 sind. Dies behandelt den Unabhängigkeitsteil. Ich denke, Ihr Ansatz versucht, hauptsächlich den identisch verteilten Teil der Annahme anzusprechen. Ich denke, es gibt einige Probleme mit Ihrer Herangehensweise. Ich denke, Sie brauchen viele Teilungen, um genügend p-Werte zu erhalten, um die Homogenität zu testen. Dann verliert jeder KS-Test an Leistung. Wenn Sie Splits verwenden, die sich mit Teilen des Datensatzes überschneiden, werden die Tests korreliert. Bei einer kleinen Anzahl von Teilungen fehlt dem Test der Gleichmäßigkeit die Leistung. Bei vielen Teilungen ist der Homogenitätstest möglicherweise leistungsfähig, bei den KS-Tests jedoch nicht. Es scheint auch, dass dieser Ansatz nicht dazu beiträgt, die Abhängigkeit zwischen Variablen zu erkennen.
@ gu11aume Ich bin mir nicht sicher, wonach du mit einem allgemeinen Test für Nicht-Zeitreihen fragst. Geodaten stellen eine Form von Nicht-Zeitreihendaten bereit. Dort könnte die Funktion namens Variogramm angeschaut werden. Bei eindimensionalen Sequenzen sehe ich keinen großen Unterschied zwischen zeitlich geordneten Sequenzen und anderen Arten der Datenreihenfolge. Eine Autokorrelationsfunktion kann weiterhin definiert und getestet werden. Wenn Sie sagen, dass Sie die Unabhängigkeit bei der Probenahme testen möchten, haben Sie meiner Meinung nach eine Reihenfolge, in der die Proben gesammelt werden. Ich denke also, dass alle eindimensionalen Fälle auf die gleiche Weise funktionieren.
quelle