Was ist Mahalanobis Abstand und wie wird er bei der Mustererkennung verwendet?

11

Kann mir jemand das Konzept der Mahalanobis-Distanz erklären? Wie groß ist beispielsweise der Mahalanobis-Abstand zwischen zwei Punkten x und y und wie wird er insbesondere für die Mustererkennung interpretiert?

Ayariga
quelle
3
Was verstehst du jetzt darüber? Haben Sie Wikipedia
Gung - Reinstate Monica
2
Sehr eng verwandt: stats.stackexchange.com/questions/62092/… .
whuber
Sie können diesen Link verwenden. es beschreibt gut people.revoledu.com/kardi/tutorial/Similarity/…
Zohreh

Antworten:

13

Die Mahalanobis-Entfernung bietet eine Möglichkeit zu messen, wie ähnlich einige Bedingungen einer bekannten Gruppe von Bedingungen sind. Es berücksichtigt die Kovarianz zwischen Variablen.

Es wird berechnet als:

D.2=(x- -m)T.C.- -1(x- -m)
wo:
D.2=Mahalanobis Entfernungx=Vektor von Datenm=Vektor der Mittelwerte unabhängiger VariablenC.- -1=Inverse Kovarianzmatrix unabhängiger VariablenT.=Zeigt an, dass der Vektor transponiert werden soll

Diese Seite enthält eine detaillierte Erklärung (mit Beispielen aus der Landschaftsanalyse).

Nadya
quelle
1
danke, die Quelle gab mir eine gute Erklärung für den Anfang
Ayariga
5

Die Mahalanobis-Entfernung wird verwendet, um Ausreißer in einem Datensatz zu finden. Ich weiß nicht, auf welchem ​​Gebiet Sie sich befinden, aber in der Psychologie wird es verwendet, um Fälle zu identifizieren, die nicht mit den Erwartungen "übereinstimmen", die angesichts der Normen für den Datensatz erwartet werden. Wenn Ihre Stichprobe beispielsweise aus Personen mit niedrigem Depressionsgrad besteht und Sie ein oder zwei Personen mit sehr hohem Depressionsgrad haben, haben sie Mahalanobis-Abstände, die größer als der erwartete kritische Wert sind. Sie möchten diese Fälle wahrscheinlich entfernen, wenn sie sehr extrem sind UND wenn Sie der Meinung sind, dass sie nicht in Ihren Datensatz passen. (Anhand des angegebenen Beispiels besteht Ihre Stichprobe aus Personen mit niedrigem Depressionsgrad, daher passen diese ein oder zwei Personen mit hohem Depressionsgrad nicht zum Rest.) Das Identifizieren von Ausreißern ist sehr wichtig, da viele statistische Analysen eine "Annahme der Normalität" haben, dh die Erwartung, dass Ihre Daten normal verteilt sind. Ausreißer können auch zu verzerrten Daten beitragen. Aus diesem Grund sollten sie auch entfernt werden. (Es sei denn, Sie transformieren die gesamte Variable und dies korrigiert den Versatz). In vielen Statistikprogrammen wie SPSS können Sie die M Entfernungen und die mit jeder Punktzahl verbundene Wahrscheinlichkeit berechnen, um Ausreißer zu identifizieren. Ich kann Ihnen SPSS-Anweisungen geben, weiß aber nicht, ob Sie SPSS verwenden. (Es sei denn, Sie transformieren die gesamte Variable und dies korrigiert den Versatz). In vielen Statistikprogrammen wie SPSS können Sie die M Entfernungen und die mit jeder Punktzahl verbundene Wahrscheinlichkeit berechnen, um Ausreißer zu identifizieren. Ich kann Ihnen SPSS-Anweisungen geben, weiß aber nicht, ob Sie SPSS verwenden. (Es sei denn, Sie transformieren die gesamte Variable und dies korrigiert den Versatz). In vielen Statistikprogrammen wie SPSS können Sie die M Entfernungen und die mit jeder Punktzahl verbundene Wahrscheinlichkeit berechnen, um Ausreißer zu identifizieren. Ich kann Ihnen SPSS-Anweisungen geben, weiß aber nicht, ob Sie SPSS verwenden.

Madeline
quelle