Ich habe über 3000 Vektoren in einem zweidimensionalen Gitter mit einer ungefähr gleichmäßigen diskreten Verteilung. Einige Vektorpaare erfüllen eine bestimmte Bedingung. Hinweis: die Bedingung nur anwendbar ist Paaren von Vektoren, nicht auf einzelne Vektoren. Ich habe eine Liste von ungefähr 1500 solcher Paare, nennen wir es Gruppe 1. Gruppe 2 enthält alle anderen Vektorpaare. Ich möchte herausfinden, ob der Abstand zwischen Vektoren in einem Paar in Gruppe 1 signifikant kleiner ist als der durchschnittliche Abstand zwischen zwei Vektoren. Wie kann ich das machen?
Statistischer Test : Gilt der zentrale Grenzwertsatz für meinen Fall? Das heißt, kann ich anhand von Stichproben Entfernungen den Student-T-Test verwenden, um Stichproben, die die Bedingung erfüllen, mit Stichproben zu vergleichen, die die Bedingung nicht erfüllen? Ansonsten, welcher statistische Test wäre hier angebracht?
Stichprobengröße und Anzahl der Stichproben : Ich verstehe, dass es hier zwei Variablen gibt, für jede der beiden Gruppen muss ich n Stichproben der Größe m und den Durchschnitt jeder der Stichproben nehmen. Gibt es eine prinzipielle Möglichkeit, n und m zu wählen ? Sollten sie so groß wie möglich sein? Oder sollten sie so klein wie möglich sein, solange sie die statistische Signifikanz zeigen? Sollten sie für jede der beiden Gruppen gleich sein? Oder sollten sie für Gruppe 2, die viel mehr Vektorpaare enthält, größer sein?
Antworten:
Die Frage nach "wesentlich" Unterschieden setzt immer ein statistisches Modell für die Daten voraus. Diese Antwort schlägt eines der allgemeinsten Modelle vor, das mit den in der Frage angegebenen Mindestinformationen übereinstimmt. Kurz gesagt, es funktioniert in einer Vielzahl von Fällen, ist jedoch möglicherweise nicht immer die leistungsfähigste Methode, um einen Unterschied zu erkennen.
Drei Aspekte der Daten sind wirklich wichtig: die Form des von den Punkten eingenommenen Raums; die Verteilung der Punkte innerhalb dieses Raumes; und der Graph, der durch die Punktpaare mit der "Bedingung" gebildet wird - die ich die "Behandlungs" -Gruppe nennen werde. Mit "Graph" meine ich das Muster von Punkten und Verbindungen, die durch die Punktpaare in der Behandlungsgruppe impliziert werden. Beispielsweise können zehn Punktpaare ("Kanten") des Diagramms bis zu 20 verschiedene Punkte oder nur fünf Punkte umfassen. Im ersten Fall haben keine zwei Kanten einen gemeinsamen Punkt, während im zweiten Fall Kanten aus allen möglichen Paaren zwischen fünf Punkten bestehen.
Um festzustellen, ob der mittlere Abstand zwischen den Kanten in der Behandlungsgruppe "signifikant" ist, können wir einen zufälligen Prozess betrachten, bei dem alle Punkte zufällig durch eine Permutation σ permutiert werden . Dies durchläuft auch die Kanten: Die Kante ( v i , v j ) wird durch ( v σ ( in = 3000 σ ( vich, vj) ( vσ( i ), vσ( j )) 3000 ! ≈ 1021024 Permutationen. In diesem Fall sollte der mittlere Abstand mit den mittleren Abständen in diesen Permutationen vergleichbar sein. Wir können die Verteilung dieser zufälligen mittleren Abstände ziemlich leicht abschätzen, indem wir einige tausend dieser Permutationen abtasten.
(Es ist bemerkenswert, dass dieser Ansatz mit nur geringfügigen Änderungen bei jeder Entfernung oder in der Tat bei jeder Menge, die mit jedem möglichen Punktpaar verbunden ist, funktioniert. Er funktioniert auch für jede Zusammenfassung der Entfernungen, nicht nur für den Mittelwert.)
Zur Veranschaulichung sind hier zwei Situationen mit Punkten und 28n = 100 28 100 100 - 1 39 28
Die Stichprobenverteilungen unterscheiden sich: Obwohl die mittleren Abstände im Durchschnitt gleich sind, ist die Variation des mittleren Abstands im zweiten Fall aufgrund der grafischen Interdependenzen zwischen den Kanten größer . Dies ist ein Grund, warum keine einfache Version des zentralen Grenzwertsatzes verwendet werden kann: Die Berechnung der Standardabweichung dieser Verteilung ist schwierig.
Im Allgemeinen kann der Anteil der mittleren Abstände sowohl von der Simulation als auch von der Behandlungsgruppe, der gleich oder größer als der mittlere Abstand in der Behandlungsgruppe ist, als p-Wert dieses nichtparametrischen Permutationstests verwendet werden.
Dies ist der
R
Code, der zum Erstellen der Illustrationen verwendet wird.quelle
mean(c(sim, stat) <= stat)
odermean(c(sim, stat) >= stat)
nach Bedarf.stat
, die in beide Richtungen bis zur Mitte der Verteilung reichen ? So etwas wiep.value <- mean(abs(c(sim, stat)-mean(sim)) >= abs(stat-mean(sim)))
.