Messen Sie die Gleichmäßigkeit der Punktverteilung in einem 2D-Quadrat

10

Ich habe ein 2D-Quadrat und eine Reihe von Punkten darin, beispielsweise 1000 Punkte. Ich brauche einen Weg, um zu sehen, ob die Verteilung der Punkte innerhalb des Quadrats verteilt ist (oder mehr oder weniger gleichmäßig verteilt ist) oder ob sie dazu neigen, sich an einer Stelle innerhalb des Quadrats zu sammeln.

Ich brauche einen mathematischen / statistischen (nicht programmierenden) Weg, um dies zu bestimmen. Ich googelte, fand so etwas wie gute Passform, Kolmogorov usw. und fragte mich nur, ob es andere Ansätze gibt, um dies zu erreichen. Benötigen Sie dies für Klassenpapier.

Eingaben: ein 2D-Quadrat und 1000 Punkte. Ausgabe: ja / nein (ja = gleichmäßig verteilt, nein = an einigen Stellen versammelt).

Van
quelle
1
Sie haben nicht genau genug artikuliert, was für Sie "gleichmäßig verteilt" ist. Meinen Sie gleichmäßig gekachelte 2D-Uniformwürfel oder etwas anderes? Zum Beispiel eine gleichmäßig verteilte Punktekette? oder ein Kreis von Punkten? In gewissem Sinne sind diese Zahlen auch einheitliche Spreads.
ttnphns
3
@ttnphns In diesem Zusammenhang hat "Uniform" eine gut etablierte konventionelle Bedeutung. Es entspricht einem Poisson-Prozess mit konstanter Intensität. Es ist oft als "CSR" völlig räumlich zufällig bekannt .
whuber
2
@ Van Sie möchten "räumliche Punktprozesse" untersuchen. Gute Schlüsselwörter sind "Ripley K-Funktion", "CSR" und "Poisson". Eine für Sie zugängliche Referenz wäre O'Sullivan & Unwin, Geographical Information Analysis. Ein Klassiker ist Ripley, Spatial Statistics : Es konzentriert sich auf Punktprozesse. Für Anwendungen werfen Sie einen kurzen Blick auf CrimeStat . Wenn Sie damit vertraut sind R, gibt es viele Werkzeuge für diese Aufgabe .
whuber

Antworten:

5

Ich denke, @Johns Idee eines Chi = Quadrat-Tests ist ein Weg.

Sie möchten Patches auf 2D, aber Sie möchten sie mit einem 1-Wege-Chi-Quadrat-Test testen. Das heißt, die erwarteten Werte für die Zellen wären wobei N die Anzahl der Zellen ist.1000N

Es ist jedoch möglich, dass eine unterschiedliche Anzahl von Zellen unterschiedliche Schlussfolgerungen liefert.

Eine andere Möglichkeit besteht darin, den durchschnittlichen Abstand zwischen Punkten zu berechnen und diesen dann mit simulierten Ergebnissen dieses Durchschnitts zu vergleichen. Dies vermeidet das Problem einer beliebigen Anzahl von Zellen.

BEARBEITEN (mehr über durchschnittliche Entfernung)

Bei 1000 Punkten gibt es paarweise Abstände zwischen den Punkten . Diese können jeweils berechnet werden (beispielsweise unter Verwendung der euklidischen Entfernung). Diese Abstände können gemittelt werden.10009992

Dann können Sie N (eine große Anzahl) von Sätzen von 1000 Punkten erzeugen, die gleichmäßig verteilt sind. Jeder dieser N Sätze hat auch einen durchschnittlichen Abstand zwischen Punkten.

Vergleichen Sie die Ergebnisse für die tatsächlichen Punkte mit den simulierten Punkten, um entweder einen p-Wert zu erhalten oder nur um zu sehen, wo sie fallen.

Peter Flom - Monica wieder einsetzen
quelle
Ich bin damit einverstanden, dass ein Chi-Quadrat mit einer Stichprobe ("Übereinstimmungs-Chi-Quadrat-Test") zu den vernünftigen Möglichkeiten gehört. Aber können Sie Ihren Vorschlag für eine "durchschnittliche Entfernung" näher erläutern? Ich habe es nicht ganz verstanden.
ttnphns
@ttnphns, diejenigen, die in der räumlichen Analyse verwendet werden, sind der Test des nächsten Nachbarn (auch bekannt als Clark- und Evans-Test) oder Ripleys K. Beispiele finden Sie in der R-Bibliothek spatstat oder in der CrimeStat-Dokumentation . Eine andere Möglichkeit, die auf Simulationen basiert, sind "Scan" -Tests, die jedoch nicht auf durchschnittlichen Entfernungen basieren.
Andy W
3

Eine andere Möglichkeit ist ein Chi-Quadrat-Test. Teilen Sie das Quadrat in gleich große, nicht überlappende Patches und testen Sie die Anzahl der Punkte, die in die Patches fallen, anhand einer Hypothese der Einheitlichkeit gegen die erwartete Anzahl (die Erwartung für ein Patch ist total_points / total_patches, wenn sie alle gleich groß sind). und wenden Sie den Chi-Quadrat-Test an. Für 1000 Punkte sollten 9 Patches ausreichen, aber Sie möchten möglicherweise mehr Granularität verwenden, je nachdem, wie Ihre Daten aussehen.

Ben Allison
quelle
1
Ich denke, Sie haben etwas anderes als eine gute Passform, wenn Sie die tatsächlichen Zählungen in jeder Zelle mit einer erwarteten Anzahl gleicher Zellen vergleichen, was Sie möchten. Die Verwendung eines Kontingenztests würde NICHT testen, ob eine gleichmäßige Verteilung zwischen Ihren Zellen vorliegt, sondern nur, wenn die Zeile von der Spalte abhängt.
John
Außerdem würde der Chi-Quadrat-Test Ihnen nur sagen, ob sie in den von Ihnen ausgewählten Zellen nicht einheitlich sind. Es würde dir nicht sagen, ob sie einheitlich waren.
John
Ja, ich meinte die Zählungen gegen ihre erwarteten Zählungen unter einer Nullhypothese der Einheitlichkeit, ich entschuldige mich, wenn es nicht klar war. Sie können es sich einfach als Tabelle vorstellen, die hilft zu verstehen, was für Uneingeweihte los ist! Und natürlich beschränken Sie sich auf das Testen anhand der von Ihnen ausgewählten Zellen und nicht auf die Einheitlichkeit im abstrakten Sinne
Ben Allison,
@ John, normalerweise führt man bei diesem "Dispersionstest" einen zweiseitigen Test durch. Wenn Sie wirklich sehen wollten, ob das Muster durch Zufall gleichmäßiger als erwartet war, können Sie einfach nachsehen, ob der Chi-Quadrat-Test in den linken Schwanz der Verteilung fällt (bei dem von Ihnen bevorzugten Grenzwert).
Andy W
Andy, du solltest eine Antwort geben, die diesen zweiseitigen Fit-Test ausführlich beschreibt. In der Regel testen zweiseitige Tests nur zwei verschiedene Alternativen zu Null, können die Null jedoch immer noch nicht demonstrieren. Ihr Vorschlag ist faszinierend.
John
1

Warum nicht den Kolmogorov-Smirnov-Test verwenden? Das würde ich tun, insbesondere wenn man bedenkt, dass Ihre Stichprobengröße groß genug ist, um den Leistungsmangel auszugleichen.

Alternativ können Sie auch eine Simulation durchführen. Es ist nicht streng, aber es liefert einige Beweise dafür, ob die Daten gleichmäßig verteilt sind.


@whuber Die zweidimensionale Erweiterung des KS ist bekannt (siehe hier ). In diesem Fall untersuchen wir, ob diese 1000 Zeichnungen (Koordinaten (x, y)) aus der zweidimensionalen, gemeinsam gleichmäßigen Verteilung gezogen werden können - zumindest habe ich so "gleichmäßig verteilt" gelesen. @ John Ich hätte mich vielleicht ungeschickt ausgedrückt (weder Mathematik noch Englisch sind meine Muttersprachen). Was ich damit meinte war, dass der genaue p-Wert mit einem Test wie dem KS berechnet werden kann, während der p-Wert (oder wie auch immer Sie das Äquivalent nennen) bei Simulationen nur asymptotisch tendiert.

abaumann
quelle
Warum sollte die Simulation nicht streng sein?
John
1
Können Sie erklären, wie der KS-Test - der für Mengen von reellen Zahlen gedacht ist, von denen angenommen wird, dass sie das Ergebnis einer kontinuierlichen Zufallsvariablen sind - auf diesen räumlichen Datensatz angewendet wird?
whuber
@whuber Ich habe meine Antwort bearbeitet, um Antworten auf Ihre Antwort zu finden. Beste.
Abaumann
@ John Ich habe versucht zu erklären, was ich meinte. Beste.
Abaumann