Wann wird die gewichtete euklidische Distanz verwendet und wie werden die zu verwendenden Gewichte bestimmt?

15

Ich habe einen Datensatz, bei dem jeder Datensatz aus verschiedenen Kennzahlen besteht. Für jede Kennzahl habe ich einen Richtwert. Ich würde gerne wissen, wie nahe die einzelnen Daten am Benchmarkwert liegen.n

Ich dachte daran, die gewichtete euklidische Distanz wie folgt zu verwenden:

dx,b=(ich=1nwich(xich-bich)2))1/2

wo

xich ist der Wert des i-ten Maßes für die bestimmten Daten

bich ist der entsprechende Referenzwert für diese Kennzahl.

wich ist der Wert des Gewichts zwischen dem i-ten Maß und dem i-ten Maß, vorbehaltlich der folgenden :

0<wich<1 undich=1n1

Auf der Grundlage dieses Dokuments fand ich jedoch heraus, dass das zu verwendende Gewicht der Kehrwert der Varianz des i-ten Maßes ist. Ich denke nicht, dass diese Art der Gewichtung die Wichtigkeit erklärt, die ich jeder Maßnahme beimessen werde.

Deshalb:

  1. Gibt es Methoden, um eine Menge von Gewichten zu erstellen, die die relative Wichtigkeit eines Maßes für den Beobachter widerspiegeln, oder kann der Beobachter beliebige Werte für die Gewichte zuweisen?

  2. Ist es angebracht, den gewichteten euklidischen Abstand zu verwenden, um dieses Problem zu lösen?

Sara
quelle

Antworten:

16

Gewichte für die Normung

Das Setup, das Sie haben, ist eine Variante der Mahalanobis-Distanz . Wenn also der Kehrwert der Varianz jeder Messung ist, werden alle Messungen effektiv auf die gleiche Skala gesetzt. Dies impliziert, dass Sie der Meinung sind, dass die Variation in jeder Einheit gleich wichtig ist, einige jedoch in Einheiten gemessen werden, die nicht unmittelbar vergleichbar sind.w

Gewichte für die Wichtigkeit

Es steht Ihnen frei, alles, was Sie möchten, als Gewichte zu verwenden, einschließlich der Maße von "Wichtigkeit" (obwohl Sie möglicherweise vor der Wichtigkeitsgewichtung standardisieren möchten, wenn sich die Maßeinheiten unterscheiden).

Ein Beispiel kann zur Klärung der Fragen beitragen: Betrachten Sie die Idee, ideologische „Entfernungen“ zwischen politischen Akteuren abzuschätzen. In dieser Anwendung könnten und die Positionen von zwei Akteuren in der Ausgabe und die Bedeutung dieser Ausgabe sein. Zum BeispielxbichwichbichMöglicherweise handelt es sich um die aktuelle Position in einer Dimension, von der sich die Positionen der verschiedenen Akteure unterscheiden. In dieser Anwendung würde man es sicherlich vorziehen, sowohl die Bedeutung als auch die Position zu messen und nicht zu behaupten. In beiden Fällen wirken sich große Gewichte weniger auf die Gesamtentfernung zwischen den Akteuren aus, wenn sie gemäß Ihrer ersten Gleichung berechnet werden. Beachten Sie auch, dass wir in dieser Version implizit keine relevante Kovarianz zwischen Positionen annehmen, was eine ziemlich starke Behauptung ist.

Konzentrieren wir uns jetzt auf Frage 2: In der Anwendung habe ich gerade die Rechtfertigung für die Gewichtung und Entfernungsgründe beschrieben, die in den spieltheoretischen Annahmen über transitive Präferenzstrukturen und dergleichen herausgearbeitet wurden. Letztendlich sind dies die einzigen Gründe, warum es „angemessen“ ist, Entfernungen auf diese Weise zu berechnen. Ohne sie haben wir nur ein paar Zahlen, die der Dreiecksungleichung gehorchen.

Gewichte als implizites Maß

In Bezug auf das Thema Kovarianz kann es hilfreich sein, sich Ihr Problem als einen Teilbereich vorzustellen, in dem Entfernungen sinnvoll sind, vorausgesetzt, dass viele der von Ihnen gemessenen Werte tatsächlich ähnliche Werte aufweisen. Ein Messmodell, z. B. eine Faktorenanalyse, würde alles über eine gewichtete Kombination in einen gemeinsamen Raum projizieren, in dem Entfernungen berechnet werden könnten. Aber auch hier müssen wir den Kontext Ihrer Forschung kennen, um zu sagen, ob das Sinn macht.

Conjugateprior
quelle
danke für wertvolle informationen. Aber ich habe Bedenken, wie man Gewichte berechnet.