Betrachten Sie das folgende Experiment: Einer Gruppe von Menschen wird eine Liste von Städten gegeben und sie werden gebeten, die entsprechenden Orte auf einer (ansonsten nicht beschrifteten) Weltkarte zu markieren. Für jede Stadt erhalten Sie eine Streuung von Punkten, die ungefähr in der jeweiligen Stadt zentriert sind. Einige Städte, sagen Istanbul, werden weniger Streuung aufweisen als andere, sagen Moskau.
Nehmen wir an, dass wir für eine gegebene Stadt eine Reihe von 2D-Beispielen , die die Position der Stadt (z. B. in einem lokalen Koordinatensystem) auf der Karte darstellen, die durch Test zugewiesen wurde Betreff . Ich möchte den Betrag der "Streuung" der Punkte in diesem Satz als einzelne Zahl in den entsprechenden Einheiten (km) ausdrücken.
Für ein 1D-Problem würde ich die Standardabweichung wählen. Gibt es jedoch ein 2D-Analog, das für die oben beschriebene Situation angemessen gewählt werden könnte?
quelle
Antworten:
Eine mögliche Methode ist ein Abstandsmaß von einem zentralen Punkt, , z. B. der Stichprobenmittelwert der Punkte oder vielleicht der Schwerpunkt der beobachteten Punkte. Dann wäre ein Maß für die Streuung die durchschnittliche Entfernung von diesem zentralen Punkt:c=(c1,c2) (x¯¯¯,y¯¯¯)
wobei . Es gibt viele mögliche Optionen für ein Distanzmaß, aber die -Norm (z. B. euklidische Distanz) kann eine vernünftige Wahl sein: L 2zich= { xich, yich} L2
Es gibt jedoch noch viele andere Möglichkeiten. Siehe http://en.wikipedia.org/wiki/Norm_%28mathematics%29
quelle
Eine gute Referenz zu Metriken für die räumliche Verteilung von Punktmustern ist das CrimeStat-Handbuch (insbesondere für diese Frage wird Kapitel 4 von Interesse sein). Ähnlich wie beim vorgeschlagenen metrischen Makro ähnelt die Standardabstandsabweichung einer 2D-Standardabweichung (der einzige Unterschied besteht darin, dass Sie in der ersten Formel, die das Makro angibt, durch "n-2" und nicht durch "n" dividieren würden).
Ihr Beispielexperiment erinnert mich ein wenig daran, wie Studien Geographic Offender Profiling bewerten , und daher könnten die in diesen Arbeiten verwendeten Metriken von Interesse sein. Insbesondere die Begriffe Präzision und Genauigkeit werden häufig verwendet und wären für die Studie relevant. Vermutungen könnten eine kleine Standardabweichung (dh genau) haben, aber dennoch eine sehr geringe Genauigkeit.
quelle
Ich denke, Sie sollten 'Mahalanobis-Distanz' anstelle von euklidischen Distanznormen verwenden, da dies die Korrelation des Datensatzes berücksichtigt und 'skalainvariant' ist. Hier ist der Link:
http://en.wikipedia.org/wiki/Mahalanobis_distance
Sie können auch "Half-Space Depth" verwenden. Es ist etwas komplizierter, teilt aber viele attraktive Eigenschaften. Die Halbraumtiefe (auch als Ortstiefe bezeichnet) eines gegebenen Punktes a relativ zu einem Datensatz P ist die minimale Anzahl von Punkten von P, die in einer geschlossenen Halbebene liegen und durch eine Linie durch a bestimmt sind. Hier sind die Links:
http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf
quelle
Ich bin in letzter Zeit auf ein ähnliches Problem gestoßen. Es hört sich so an, als ob Sie einen Weg suchen, um zu messen, wie gut die Punkte flächenmäßig verteilt sind. Natürlich müsste man für eine gegebene Messung erkennen, dass, wenn alle Punkte auf einer geraden Linie liegen, die Antwort Null ist, da es keine zweidimensionale Variante gibt.
Nach den Berechnungen, die ich angestellt habe, ist mir Folgendes eingefallen:
In diesem Fall sind Sxx und Syy die Varianzen von x bzw. von y, während Sxy der gemischten Varianzen von x und y ähnlich ist.
Vorausgesetzt, es gibt n Elemente und repräsentiert den Mittelwert von x und repräsentiert den Mittelwert von y:xμ yμ
Hoffentlich sollte das für Sie funktionieren.
Wenn Sie sich fragen, wie Sie das in höheren Dimensionen tun können, z. B. die Volumenspreizung oder die Masse des Chirurgen in vier Dimensionen, müssen Sie eine Matrix wie die folgende erstellen:
Sxx Sxy Sxz ...
Syx Syy Syz ...
Szx Szy Szz ...
... ... ... ...
Und fahren Sie für so viele Dimensionen fort, wie Sie benötigen. Sie sollten in der Lage sein, die S-Werte anhand der oben angegebenen Definitionen zu ermitteln, jedoch für verschiedene Variablen.
Sobald die Matrix gebildet ist, nimm die Determinante, finde die Quadratwurzel und du bist fertig.
quelle
Für dieses spezielle Beispiel - wo es eine vorgegebene "richtige" Antwort gibt - würde ich die x / y-Koordinaten so überarbeiten, dass sie Polarkoordinaten um die Stadt sind, die sie auf der Karte markieren sollen. Die Genauigkeit wird dann gegen die radiale Komponente (Mittelwert, sd usw.) gemessen. Ein "mittlerer Winkel" könnte auch verwendet werden, um die Vorspannung zu messen.
Für mich selbst bin ich immer noch auf der Suche nach einer guten Lösung für den Fall, dass es keinen vorher festgelegten Mittelpunkt gibt, und ich mag die Idee, die Daten vorab zu überfliegen, um einen Schwerpunkt zu erstellen, nicht.
quelle