Ich habe ein 2D-Quadrat und eine Reihe von Punkten darin, beispielsweise 1000 Punkte. Ich brauche einen Weg, um zu sehen, ob die Verteilung der Punkte innerhalb des Quadrats verteilt ist (oder mehr oder weniger gleichmäßig verteilt ist) oder ob sie dazu neigen, sich an einer Stelle innerhalb des Quadrats zu sammeln.
Ich brauche einen mathematischen / statistischen (nicht programmierenden) Weg, um dies zu bestimmen. Ich googelte, fand so etwas wie gute Passform, Kolmogorov usw. und fragte mich nur, ob es andere Ansätze gibt, um dies zu erreichen. Benötigen Sie dies für Klassenpapier.
Eingaben: ein 2D-Quadrat und 1000 Punkte. Ausgabe: ja / nein (ja = gleichmäßig verteilt, nein = an einigen Stellen versammelt).
R
, gibt es viele Werkzeuge für diese Aufgabe .Antworten:
Ich denke, @Johns Idee eines Chi = Quadrat-Tests ist ein Weg.
Sie möchten Patches auf 2D, aber Sie möchten sie mit einem 1-Wege-Chi-Quadrat-Test testen. Das heißt, die erwarteten Werte für die Zellen wären wobei N die Anzahl der Zellen ist.1000N
Es ist jedoch möglich, dass eine unterschiedliche Anzahl von Zellen unterschiedliche Schlussfolgerungen liefert.
Eine andere Möglichkeit besteht darin, den durchschnittlichen Abstand zwischen Punkten zu berechnen und diesen dann mit simulierten Ergebnissen dieses Durchschnitts zu vergleichen. Dies vermeidet das Problem einer beliebigen Anzahl von Zellen.
BEARBEITEN (mehr über durchschnittliche Entfernung)
Bei 1000 Punkten gibt es paarweise Abstände zwischen den Punkten . Diese können jeweils berechnet werden (beispielsweise unter Verwendung der euklidischen Entfernung). Diese Abstände können gemittelt werden.1000∗9992
Dann können Sie N (eine große Anzahl) von Sätzen von 1000 Punkten erzeugen, die gleichmäßig verteilt sind. Jeder dieser N Sätze hat auch einen durchschnittlichen Abstand zwischen Punkten.
Vergleichen Sie die Ergebnisse für die tatsächlichen Punkte mit den simulierten Punkten, um entweder einen p-Wert zu erhalten oder nur um zu sehen, wo sie fallen.
quelle
Eine andere Möglichkeit ist ein Chi-Quadrat-Test. Teilen Sie das Quadrat in gleich große, nicht überlappende Patches und testen Sie die Anzahl der Punkte, die in die Patches fallen, anhand einer Hypothese der Einheitlichkeit gegen die erwartete Anzahl (die Erwartung für ein Patch ist total_points / total_patches, wenn sie alle gleich groß sind). und wenden Sie den Chi-Quadrat-Test an. Für 1000 Punkte sollten 9 Patches ausreichen, aber Sie möchten möglicherweise mehr Granularität verwenden, je nachdem, wie Ihre Daten aussehen.
quelle
Warum nicht den Kolmogorov-Smirnov-Test verwenden? Das würde ich tun, insbesondere wenn man bedenkt, dass Ihre Stichprobengröße groß genug ist, um den Leistungsmangel auszugleichen.
Alternativ können Sie auch eine Simulation durchführen. Es ist nicht streng, aber es liefert einige Beweise dafür, ob die Daten gleichmäßig verteilt sind.
@whuber Die zweidimensionale Erweiterung des KS ist bekannt (siehe hier ). In diesem Fall untersuchen wir, ob diese 1000 Zeichnungen (Koordinaten (x, y)) aus der zweidimensionalen, gemeinsam gleichmäßigen Verteilung gezogen werden können - zumindest habe ich so "gleichmäßig verteilt" gelesen. @ John Ich hätte mich vielleicht ungeschickt ausgedrückt (weder Mathematik noch Englisch sind meine Muttersprachen). Was ich damit meinte war, dass der genaue p-Wert mit einem Test wie dem KS berechnet werden kann, während der p-Wert (oder wie auch immer Sie das Äquivalent nennen) bei Simulationen nur asymptotisch tendiert.
quelle