2D-Analogon der Standardabweichung?

19

Betrachten Sie das folgende Experiment: Einer Gruppe von Menschen wird eine Liste von Städten gegeben und sie werden gebeten, die entsprechenden Orte auf einer (ansonsten nicht beschrifteten) Weltkarte zu markieren. Für jede Stadt erhalten Sie eine Streuung von Punkten, die ungefähr in der jeweiligen Stadt zentriert sind. Einige Städte, sagen Istanbul, werden weniger Streuung aufweisen als andere, sagen Moskau.

Nehmen wir an, dass wir für eine gegebene Stadt eine Reihe von 2D-Beispielen , die die Position der Stadt (z. B. in einem lokalen Koordinatensystem) auf der Karte darstellen, die durch Test zugewiesen wurde Betreff . Ich möchte den Betrag der "Streuung" der Punkte in diesem Satz als einzelne Zahl in den entsprechenden Einheiten (km) ausdrücken.{(xi,yi)}(x,y)i

Für ein 1D-Problem würde ich die Standardabweichung wählen. Gibt es jedoch ein 2D-Analog, das für die oben beschriebene Situation angemessen gewählt werden könnte?

koletenbert
quelle
eine Eroberung machen?
RockScience
Ich habe das räumliche Tag hinzugefügt, da das Beispiel explizit räumlich ist. Wenn Sie (oder jemand anderes) der Meinung sind, dass es nicht erforderlich ist, können Sie diese Addition zurücksetzen.
Andy W

Antworten:

12

Eine mögliche Methode ist ein Abstandsmaß von einem zentralen Punkt, , z. B. der Stichprobenmittelwert der Punkte oder vielleicht der Schwerpunkt der beobachteten Punkte. Dann wäre ein Maß für die Streuung die durchschnittliche Entfernung von diesem zentralen Punkt:c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

wobei . Es gibt viele mögliche Optionen für ein Distanzmaß, aber die -Norm (z. B. euklidische Distanz) kann eine vernünftige Wahl sein: L 2zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

Es gibt jedoch noch viele andere Möglichkeiten. Siehe http://en.wikipedia.org/wiki/Norm_%28mathematics%29

Makro
quelle
Obwohl der Abstand ungleich Null ist, ist dies in der Tat eine seltsame Wahl, da sie im entarteten Fall nicht mit der üblichen Standardabweichung in einer Dimension übereinstimmt. Betrachten Sie stattdessen . zic2
Alex R.
6

Eine gute Referenz zu Metriken für die räumliche Verteilung von Punktmustern ist das CrimeStat-Handbuch (insbesondere für diese Frage wird Kapitel 4 von Interesse sein). Ähnlich wie beim vorgeschlagenen metrischen Makro ähnelt die Standardabstandsabweichung einer 2D-Standardabweichung (der einzige Unterschied besteht darin, dass Sie in der ersten Formel, die das Makro angibt, durch "n-2" und nicht durch "n" dividieren würden).

Ihr Beispielexperiment erinnert mich ein wenig daran, wie Studien Geographic Offender Profiling bewerten , und daher könnten die in diesen Arbeiten verwendeten Metriken von Interesse sein. Insbesondere die Begriffe Präzision und Genauigkeit werden häufig verwendet und wären für die Studie relevant. Vermutungen könnten eine kleine Standardabweichung (dh genau) haben, aber dennoch eine sehr geringe Genauigkeit.

Andy W
quelle
1

Ich denke, Sie sollten 'Mahalanobis-Distanz' anstelle von euklidischen Distanznormen verwenden, da dies die Korrelation des Datensatzes berücksichtigt und 'skalainvariant' ist. Hier ist der Link:

http://en.wikipedia.org/wiki/Mahalanobis_distance

Sie können auch "Half-Space Depth" verwenden. Es ist etwas komplizierter, teilt aber viele attraktive Eigenschaften. Die Halbraumtiefe (auch als Ortstiefe bezeichnet) eines gegebenen Punktes a relativ zu einem Datensatz P ist die minimale Anzahl von Punkten von P, die in einer geschlossenen Halbebene liegen und durch eine Linie durch a bestimmt sind. Hier sind die Links:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf

VitalStatistix
quelle
1
Ich verstehe die Verwendung von Mahalanobis-Abständen, wenn Sie versuchen, festzustellen, ob bestimmte Punkte zur Menge gehören, aber nicht der durchschnittliche euklidische Abstand zum Schwerpunkt in engerem Zusammenhang mit dem üblichen Konzept von Varianz / Standardabweichung, das in a verwendet wird univariate Einstellung?
Makro
2
Haben Sie etwas dagegen, die Aussagen "Berücksichtigt die Korrelation der Daten" und "Ist die Skalierung unveränderlich" zu erläutern? Welche Relevanz hat eines dieser Dinge für die vorliegende Frage?
Andy W
Die übliche Ausdehnung der Standardabweichung auf eine höhere Dimension ist natürlich eine Möglichkeit, die Entfernung eines bestimmten Punkts vom Mittelpunkt der Daten zu berechnen. Hier normalisieren wir jedoch jeden Punkt, wodurch die Clusteranalyse oder die Erkennung von Ausreißern vereinfacht wird. Der Mahalanobis-Abstand ist auch anpassungsfähiger für Fälle, in denen die Punkteverteilung nicht kugelförmig ist. Für sphärisch symmetrische Fälle entspricht dies der üblichen erweiterten Standardabweichung, bei der sich die Kovarianzmatrix der Datenpunkte zur Identitätsmatrix reduziert.
VitalStatistix
1

Ich bin in letzter Zeit auf ein ähnliches Problem gestoßen. Es hört sich so an, als ob Sie einen Weg suchen, um zu messen, wie gut die Punkte flächenmäßig verteilt sind. Natürlich müsste man für eine gegebene Messung erkennen, dass, wenn alle Punkte auf einer geraden Linie liegen, die Antwort Null ist, da es keine zweidimensionale Variante gibt.

Nach den Berechnungen, die ich angestellt habe, ist mir Folgendes eingefallen:

SxxSyySxy²

In diesem Fall sind Sxx und Syy die Varianzen von x bzw. von y, während Sxy der gemischten Varianzen von x und y ähnlich ist.

Vorausgesetzt, es gibt n Elemente und repräsentiert den Mittelwert von x und repräsentiert den Mittelwert von y:xμyμ

Sxx=1ni=1n(xxμ)²
Syy=1nich=1n(y-yμ)²
Sxy=1nich=1n(x-xμ)(y-yμ)

Hoffentlich sollte das für Sie funktionieren.

Wenn Sie sich fragen, wie Sie das in höheren Dimensionen tun können, z. B. die Volumenspreizung oder die Masse des Chirurgen in vier Dimensionen, müssen Sie eine Matrix wie die folgende erstellen:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

Und fahren Sie für so viele Dimensionen fort, wie Sie benötigen. Sie sollten in der Lage sein, die S-Werte anhand der oben angegebenen Definitionen zu ermitteln, jedoch für verschiedene Variablen.

Sobald die Matrix gebildet ist, nimm die Determinante, finde die Quadratwurzel und du bist fertig.

Mathe-Maschine
quelle
0

Für dieses spezielle Beispiel - wo es eine vorgegebene "richtige" Antwort gibt - würde ich die x / y-Koordinaten so überarbeiten, dass sie Polarkoordinaten um die Stadt sind, die sie auf der Karte markieren sollen. Die Genauigkeit wird dann gegen die radiale Komponente (Mittelwert, sd usw.) gemessen. Ein "mittlerer Winkel" könnte auch verwendet werden, um die Vorspannung zu messen.

Für mich selbst bin ich immer noch auf der Suche nach einer guten Lösung für den Fall, dass es keinen vorher festgelegten Mittelpunkt gibt, und ich mag die Idee, die Daten vorab zu überfliegen, um einen Schwerpunkt zu erstellen, nicht.

dsz
quelle