Erklärung der Mahalanobis-Distanz von unten nach oben?

127

Ich studiere Mustererkennung und Statistik und fast jedes Buch, das ich zu dem Thema aufschlage, stoße ich auf das Konzept der Mahalanobis-Distanz . Die Bücher geben eine Art intuitive Erklärungen, aber sie sind immer noch nicht gut genug, um wirklich zu verstehen, was los ist. Wenn mich jemand fragen würde: "Wie weit ist Mahalanobis?" Ich konnte nur antworten: "Es ist dieses nette Ding, das die Entfernung misst" :)

Die Definitionen enthalten in der Regel auch Eigenvektoren und Eigenwerte, die ich mit der Mahalanobis-Distanz nur schwer verbinden kann. Ich verstehe die Definition von Eigenvektoren und Eigenwerten, aber wie hängen sie mit der Mahalanobis-Distanz zusammen? Hat dies etwas mit dem Ändern der Basis in der Linearen Algebra usw. zu tun?

Ich habe auch diese früheren Fragen zu diesem Thema gelesen:

Diese Erklärung habe ich auch gelesen .

Die Antworten sind gut und die Bilder schön, aber ich verstehe es immer noch nicht wirklich ... Ich habe eine Idee, aber es liegt immer noch im Dunkeln. Kann jemand eine "Wie würdest du es deiner Oma erklären" -Erklärung geben, damit ich dies endlich einpacken und mich nie wieder wundern kann, was zum Teufel eine Mahalanobis-Distanz ist? :) Woher kommt es, was, warum?

AKTUALISIEREN:

Hier ist etwas, das zum Verständnis der Mahalanobis-Formel beiträgt:

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

jjepsuomi
quelle

Antworten:

188

Hier ist ein Streudiagramm einiger multivariater Daten (in zwei Dimensionen):

Bildbeschreibung hier eingeben

Was können wir daraus machen, wenn die Achsen weggelassen werden?

Bildbeschreibung hier eingeben

Geben Sie Koordinaten ein, die von den Daten selbst vorgeschlagen werden.

Der Ursprung liegt im Schwerpunkt der Punkte (dem Punkt ihrer Durchschnittswerte). Die erste Koordinatenachse (blau in der nächsten Abbildung) verläuft entlang der "Wirbelsäule" der Punkte. Dies ist (per Definition) jede Richtung, in der die Varianz am größten ist. Die zweite Koordinatenachse (in der Abbildung rot) verläuft senkrecht zur ersten. (In mehr als zwei Dimensionen wird es in der senkrechten Richtung gewählt, in der die Varianz so groß wie möglich ist, und so weiter.)

Bildbeschreibung hier eingeben

Wir brauchen eine Waage . Die Standardabweichung entlang jeder Achse ist gut geeignet, um die Einheiten entlang der Achsen zu bestimmen. Beachten Sie die 68-95-99.7-Regel: Etwa zwei Drittel (68%) der Punkte sollten innerhalb einer Einheit des Ursprungs liegen (entlang der Achse). Etwa 95% sollten innerhalb von zwei Einheiten liegen. Das macht es einfach, die richtigen Einheiten zu finden. Als Referenz enthält diese Abbildung den Einheitenkreis in diesen Einheiten:

Bildbeschreibung hier eingeben

Das sieht doch nicht wirklich nach einem Kreis aus, oder? Das liegt daran, dass dieses Bild verzerrt ist (was durch die unterschiedlichen Abstände zwischen den Zahlen auf den beiden Achsen deutlich wird). Zeichnen wir es mit den Achsen in der richtigen Ausrichtung (von links nach rechts und von unten nach oben) und mit einem Einheitenseitenverhältnis neu, sodass eine Einheit horizontal tatsächlich einer Einheit vertikal entspricht:

Bildbeschreibung hier eingeben

Sie messen den Mahalanobis-Abstand in diesem Bild und nicht im Original.

Was ist hier passiert? Wir lassen uns anhand der Daten erklären, wie ein Koordinatensystem für Messungen im Streudiagramm konstruiert wird. Das ist alles was es ist. Obwohl wir auf dem Weg einige Entscheidungen treffen mussten (wir konnten immer eine oder beide Achsen umkehren; und in seltenen Situationen sind die Richtungen entlang der "Stacheln" - die Hauptrichtungen - nicht eindeutig), ändern sie die Abstände nicht in der letzten Handlung.


Technische Kommentare

(Nicht für Oma, die wahrscheinlich das Interesse verlor, sobald die Zahlen wieder auf den Handlungen erschienen, sondern um die verbleibenden Fragen zu beantworten, die gestellt wurden.)

  • Einheitsvektoren entlang der neuen Achsen sind die Eigenvektoren (entweder der Kovarianzmatrix oder ihrer Inversen).

  • Wir haben festgestellt, dass eine unverzerrte Ellipse zur Bildung eines Kreises den Abstand entlang jedes Eigenvektors durch die Standardabweichung teilt : die Quadratwurzel der Kovarianz. Wenn Sie für die Kovarianzfunktion stehen lassen, ist der neue (Mahalanobis) Abstand zwischen zwei Punkten und der Abstand von zu geteilt durch die Quadratwurzel von . Die entsprechenden algebraischen Operationen, die nun als Matrix und und als Vektordarstellung betrachten, lauten . Das funktioniertCxyxyC(xy,xy)Cxy(xy)C1(xy)unabhängig davon, auf welcher Basis Vektoren und Matrizen dargestellt werden. Dies ist insbesondere die korrekte Formel für die Mahalanobis-Distanz in den ursprünglichen Koordinaten.

  • Die Beträge, um die die Achsen im letzten Schritt expandiert werden, sind die (Quadratwurzeln der) Eigenwerte der inversen Kovarianzmatrix. Entsprechend werden die Achsen um die (Wurzeln der) Eigenwerte der Kovarianzmatrix geschrumpft . Je größer die Streuung ist, desto größer ist die Schrumpfung, die erforderlich ist, um diese Ellipse in einen Kreis umzuwandeln.

  • Obwohl dieses Verfahren immer mit jedem Datensatz funktioniert, sieht es für Daten, die ungefähr multivariate Normalen sind, gut aus (die klassische fußballförmige Wolke). In anderen Fällen ist der Durchschnittspunkt möglicherweise keine gute Darstellung des Mittelpunkts der Daten, oder die "Stacheln" (allgemeine Trends in den Daten) werden unter Verwendung der Varianz als Maß für die Streuung nicht genau identifiziert.

  • Die Verschiebung des Koordinatenursprungs, die Drehung und die Ausdehnung der Achsen bilden zusammen eine affine Transformation. Abgesehen von dieser anfänglichen Verschiebung ist dies eine Änderung der Basis von der ursprünglichen (unter Verwendung von Einheitsvektoren, die in die positiven Koordinatenrichtungen zeigen) zu der neuen (unter Verwendung einer Auswahl von Einheitseigenvektoren).

  • Es besteht ein enger Zusammenhang mit der Hauptkomponentenanalyse (PCA) . Dies allein ist schon eine wichtige Erklärung für die Fragen "Woher kommt es?" Und "Warum?" - wenn Sie nicht bereits von der Eleganz und Nützlichkeit überzeugt waren, die Daten die Koordinaten bestimmen zu lassen, mit denen Sie sie beschreiben und messen Unterschiede.

  • Bei multivariaten Normalverteilungen (bei denen dieselbe Konstruktion unter Verwendung von Eigenschaften der Wahrscheinlichkeitsdichte anstelle der analogen Eigenschaften der Punktwolke durchgeführt werden kann) wird der Mahalanobis-Abstand (zum neuen Ursprung) anstelle des " " im Ausdruck angezeigt , das die Wahrscheinlichkeitsdichte der Standardnormalverteilung kennzeichnet. Daher sieht eine multivariate Normalverteilung in den neuen Koordinaten normal ausxexp(12x2)wenn auf eine Linie durch den Ursprung projiziert. Insbesondere ist es in jeder der neuen Koordinaten Standardnormal. Unter diesem Gesichtspunkt besteht der einzige wesentliche Unterschied zwischen multivariaten Normalverteilungen darin, wie viele Dimensionen sie verwenden. (Beachten Sie, dass diese Anzahl von Dimensionen möglicherweise geringer ist als die nominelle Anzahl von Dimensionen.)

whuber
quelle
3
Wenn jemand neugierig ist, ist eine affine Transformation "eine Transformation, die gerade Linien ... und Entfernungsverhältnisse zwischen Punkten, die auf einer geraden Linie liegen, beibehält". (@whuber, ich weiß nicht, ob Sie so etwas in den Aufzählungspunkt einfügen möchten.)
gung
Meine Erwähnung affiner Transformationen wird unmittelbar von einer Charakterisierung derselben gefolgt: einer Übersetzung, gefolgt von einem Basiswechsel. Ich habe diese Sprache gewählt, weil sie auch in der Frage verwendet wird. (Wir müssen "Basiswechsel" einigermaßen liberal nehmen, um nicht invertierbare lineare Transformationen zu erfassen.
Dies
13
@whuber, deine Erklärung ist wahrscheinlich die beste, die ich je gesehen habe. Wenn dies erklärt wird, wird es in der Regel sehr abstrakt behandelt, wenn Ellipsoide und Kugeln erwähnt werden, und sie zeigen nicht, was sie bedeuten. Ein großes Lob an Sie, dass Sie demonstriert haben, wie die Achsentransformation die Datenverteilung in eine "Kugel" umwandelt, sodass der Abstand als ein Vielfaches des sd der Daten vom Mittelwert der Daten "gesehen" werden kann, wie dies ohne weiteres für eindimensionale Daten der Fall ist Daten. Diese Visualisierung ist meiner Meinung nach der Schlüssel und wird leider aus den meisten Diskussionen zum Thema herausgelassen. Gute Arbeit --- Ihre Erklärung
Gibt es eine robuste PCA? Eine Variante, mit der wir bei Betrachtung der Größe der Kovarianzmatrix Ausreißerdatenpunkte verwerfen können?
EngrStudent
@Engr Sicher: Jede robuste Schätzung der Kovarianzmatrix würde zu einer robusten PCA führen. Es gibt auch andere direkte Methoden, auf die in Antworten auf Fragen zu robusten PCA verwiesen wird .
whuber
37

Meine Oma kocht. Deiner vielleicht auch. Kochen ist eine köstliche Art, Statistik zu lehren.

Kürbis Habanero Kekse sind super! Überlegen Sie, wie wunderbar Zimt und Ingwer in Weihnachtsleckereien sein können, und stellen Sie dann fest, wie heiß sie für sich allein sind.

Die Zutaten sind:

  • Habaneropfeffer (10, entkernt und fein gehackt)
  • Zucker (1,5 Tassen)
  • Butter (1 Tasse)
  • Vanilleextrakt (1 TL)
  • Eier (2 mittelgroße)
  • Mehl (2,75 Tassen)
  • Backpulver (1 TL)
  • Salz (1 TL)

Stellen Sie sich vor, dass Ihre Koordinatenachsen für Ihre Domain die Inhaltsstoffvolumina sind. Zucker. Mehl. Salz. Backsoda. Variationen entlang dieser Richtungen haben, wenn sie alle gleich sind, nicht annähernd die Auswirkung auf die Geschmacksqualität als Variation in der Anzahl der Habaneropfeffer. Eine 10% ige Veränderung von Mehl oder Butter wird es weniger großartig machen, aber nicht mörderisch. Wenn Sie nur eine kleine Menge mehr Habanero zugeben, werden Sie von einem süchtig machenden Dessert bis zu einem auf Testosteron basierenden Schmerzkampf überfordert.

Mahalanobis ist nicht so weit von "Zutatenmengen" entfernt wie von "bestem Geschmack". Die wirklich "potenten" Zutaten, die sehr empfindlich gegenüber Variationen sind, sind diejenigen, die Sie am sorgfältigsten kontrollieren müssen.

Was ist der Unterschied, wenn Sie an eine Gaußsche Verteilung im Vergleich zur Standardnormalverteilung denken ? Mittelpunkt und Skala basieren auf der zentralen Tendenz (Mittelwert) und der Variationstendenz (Standardabweichung). Eines ist die Koordinatentransformation des anderen. Mahalanobis ist diese Transformation. Es zeigt Ihnen, wie die Welt aussieht, wenn Ihre Interessensverteilung als Standardnormal anstelle eines Gaußschen umgewandelt wurde.

EngrStudent
quelle
4
Gaußsche Verteilungen sind Normalverteilungen. Welche Unterscheidung möchten Sie in Ihrem letzten Absatz treffen?
whuber
1
@Whuber - Standard. Ich meinte Standard. Ich dachte, ich hätte es gesagt. Sollte den Bearbeitungsverlauf überprüfen. Die folgenden Sätze wiederholen den Hauptgedanken.
EngrStudent
2
Was meinen Sie dann mit " der Gaußschen Verteilung"?
Whuber
1
Besser? Es könnte sich um eine Gauß-Verteilung mit einem beliebigen Mittelwert und einer beliebigen Varianz handeln. Die Transformation wird jedoch durch Subtrahieren des Mittelwerts und Skalieren um die Standardabweichung auf die Standardnormale abgebildet.
EngrStudent
4
Ja, jetzt ist es klarer. Ich bin verwirrt, warum Sie zwei Begriffe (Gaußsch und Normal) verwenden, um sich auf dasselbe zu beziehen, aber das ist jetzt in Ordnung, da Sie es erklärt haben. Ich bin auch ein wenig verwirrt über Ihre letzte Behauptung, die zu sagen scheint, dass jede multivariate Distribution in eine Standardnormalverteilung umgewandelt werden kann (die gemäß der Definition, mit der Sie verknüpfen, univariat ist ): Ich denke, Sie meinen, sie kann so gestaltet werden, dass sie standardisiert aussieht Normal in jeder Komponente. Unabhängig davon ist die Analogie, mit der Sie beginnen, nett.
Whuber
10

Als Ausgangspunkt würde ich die Mahalanobis-Distanz als eine geeignete Verformung der üblichen euklidischen Distanz zwischen den Vektoren und in . Die zusätzliche Information hier ist, dass und tatsächlich Zufallsvektoren sind, dh 2 verschiedene Realisierungen eines Vektors von Zufallsvariablen, die im Hintergrund unserer Diskussion liegen. Die Frage, die die Mahalanobis zu beantworten versuchen, ist die folgende:d(x,y)=x,yxyRnxyX

"Wie kann ich die" Unähnlichkeit "zwischen und messen , wenn ich weiß, dass sie dieselbe multivariate Zufallsvariable realisieren?" xy

Es ist klar, dass die Unähnlichkeit jeder Realisierung mit sich selbst gleich 0 sein sollte; Darüber hinaus sollte die Unähnlichkeit eine symmetrische Funktion der Erkenntnisse sein und die Existenz eines zufälligen Prozesses im Hintergrund widerspiegeln. Diesem letzten Aspekt wird durch Einführung der Kovarianzmatrix der multivariaten Zufallsvariablen Rechnung getragen.xC

Sammeln wir die oben genannten Ideen, kommen wir ganz natürlich zu

D(x,y)=(xy)C1(xy)

Wenn die Komponenten der multivariaten Zufallsvariablen nicht korreliert sind, zum Beispiel mit (wir "normalisierten" die , um zu haben) ), dann wird die Mahalanobis - Distanz ist der euklidische Abstand zwischen und . Bei Vorhandensein nicht trivialer Korrelationen "deformiert" die (geschätzte) Korrelationsmatrix den euklidischen Abstand. X = ( X 1 , ... , X n ) C i j = δ i jXiX=(X1,,Xn)Cij=δijXiVar(Xi)=1D(x,y) xyC(x,y)

Avitus
quelle
9

Betrachten wir den Fall der beiden Variablen. Wenn Sie dieses Bild von bivariate normal sehen (danke @whuber), können Sie nicht einfach behaupten, dass AB größer als AC ist. Es gibt eine positive Kovarianz; Die beiden Variablen stehen in Beziehung zueinander.

Sie können einfache euklidische Messungen (gerade Linien wie AB und AC) nur anwenden, wenn die Variablen sind

  1. unabhängig
  2. haben Abweichungen gleich 1.

Das Mahalanobis-Abstandsmaß bewirkt im Wesentlichen Folgendes: Es wandelt die Variablen in unkorrelierte Variablen mit Varianzen von 1 um und berechnet dann den einfachen euklidischen Abstand.

den2042
quelle
1
Schlagen Sie vor, dass ich jedes Mal, wenn ich eine Korrelation in einem Diagramm sehe, wie in Ihrer Antwort hier gezeigt, nur über die Berechnung von Mahalanobis und nicht über die euklidische Distanz nachdenken sollte? Was würde mir sagen, wann ich welche verwenden soll?
Sandyp
7

Ich werde versuchen, es dir so einfach wie möglich zu erklären:

Mahalanobis-Abstand misst den Abstand eines Punkts x von einer Datenverteilung. Die Datenverteilung ist durch einen Mittelwert und die Kovarianzmatrix charakterisiert und wird daher als multivariater Gauß angenommen.

Es wird bei der Mustererkennung als Ähnlichkeitsmaß zwischen dem Muster (Datenverteilung des Trainingsbeispiels einer Klasse) und dem Testbeispiel verwendet. Die Kovarianzmatrix gibt die Form an, wie Daten im Merkmalsraum verteilt werden.

Die Abbildung zeigt drei verschiedene Klassen an und die rote Linie zeigt die gleiche Mahalanobis-Distanz für jede Klasse an.  Alle Punkte, die auf der roten Linie liegen, haben den gleichen Abstand zum Klassenmittelwert, da hier die Kovarianzmatrix verwendet wird.

Die Abbildung zeigt drei verschiedene Klassen an und die rote Linie zeigt die gleiche Mahalanobis-Distanz für jede Klasse an. Alle Punkte, die auf der roten Linie liegen, haben den gleichen Abstand zum Klassenmittelwert, da hier die Kovarianzmatrix verwendet wird.

Das Schlüsselmerkmal ist die Verwendung von Kovarianz als Normalisierungsfaktor.

robbisg
quelle
6

Ich möchte ein wenig technische Informationen zu Whubers hervorragender Antwort hinzufügen. Diese Information könnte Oma nicht interessieren, aber vielleicht würde es ihr Enkelkind hilfreich finden. Das Folgende ist eine Erklärung der relevanten linearen Algebra von unten nach oben.

Mahalanobis-Abstand ist definiert als , wobei eine Schätzung der Kovarianzmatrix für einige Daten ist; dies impliziert, dass es symmetrisch ist. Wenn die zum Schätzen von verwendeten Spalten nicht linear abhängig sind, ist definitiv positiv. Symmetrische Matrizen sind diagonalisierbar und ihre Eigenwerte und Eigenvektoren sind reell. PD-Matrizen haben Eigenwerte, die alle positiv sind. Die Eigenvektoren können so gewählt werden, dass sie eine Einheitslänge haben und orthogonal (dh orthonormal) sind, so dass wir schreiben können: und . Stecken Sie das in die Entfernungsdefinition,d(x,y)=(xy)TΣ1(xy)ΣΣΣΣ=QTDQΣ1=QD12D12QTd(x,y)=[(xy)TQ]D12D12[QT(xy)]=zTz . Es ist klar, dass die Produkte in eckigen Klammern Transponierten sind und der Effekt der Multiplikation mit den Vektor in eine orthogonale Basis dreht . Schließlich skaliert , das diagonal ist und gebildet wird, indem jedes Element auf der Diagonale invertiert und dann die Quadratwurzel gezogen wird, jedes Element jedes Vektors neu. Tatsächlich ist genau die inverse Standardabweichung jedes Merkmals im orthogonalen Raum (dhQ(xy)D12D12D1eine Präzisionsmatrix, und weil die Daten orthogonal sind, ist die Matrix diagonal). Der Effekt besteht darin, das, was Whuber eine gedrehte Ellipse nennt, in einen Kreis umzuwandeln, indem seine Achsen "abgeflacht" werden. Es ist klar, dass in Einheiten im Quadrat gemessen wird. Wenn Sie also die Quadratwurzel verwenden, wird der Abstand in die ursprünglichen Einheiten zurückgerechnet.zTz

Sycorax
quelle
5

Ich könnte ein bisschen spät dran sein, um diese Frage zu beantworten. Dieses Papier hier ist ein guter Anfang, um die Mahalanobis-Distanz zu verstehen. Sie bieten ein vollständiges Beispiel mit numerischen Werten. Was mir daran gefällt, ist die geometrische Darstellung des Problems.

CroCo
quelle
4

Um die oben genannten hervorragenden Erklärungen zu ergänzen, ergibt sich die Mahalanobis-Distanz auf natürliche Weise in einer (multivariaten) linearen Regression. Dies ist eine einfache Konsequenz einiger Verbindungen zwischen der Mahalanobis-Distanz und der Gauß-Verteilung, die in den anderen Antworten erörtert wurden.

Angenommen, wir haben einige Daten mit und . Nehmen wir an, dass es einen Parametervektor und eine Parametermatrix so dass , wo sind iid -dimensionale Gaußsche Zufallsvektoren mit Mittelwert und Kovarianz (und sie sind unabhängig von der ). Dann ist mit Gaußsch mit Mittelwert(x1,y1),,(xN,yN)xiRnyiRmβ0Rmβ1Rm×nyi=β0+β1xi+ϵiϵ1,,ϵNm0Cxiyixiβ0+β1xi und Kovarianz .C

Daraus folgt, dass die negative log-Wahrscheinlichkeit von bei (als Funktion von ) gegeben ist durch Wir nehmen an, dass die Kovarianz konstant ist, also wobei ist der Mahalanobis-Abstand zwischenyixiβ=(β0,β1)

logp(yixi;β)=m2log(2πdetC)+12(yi(β0+β1xi))C1(yi(β0+βxi)).
C
argminβ[logp(yixi;β)]=argminβDC(β0+β1xi,yi),
DC(y^,y)=(yy^)C1(yy^)
y^,yRm .

Durch die Unabhängigkeit wird die log-Wahrscheinlichkeit von gegeben ist gegeben durch die Summe Daher wobei der Faktor beeinflusst das Argmin nicht.logp(yx;β)y=(y1,,yN)x=(x1,,xN)

logp(yx;β)=i=1Nlogp(yixi;β)
argminβ[logp(yx;β)]=argminβ1Ni=1NDC(β0+β1xi,yi),
1/N

Zusammenfassend minimieren die Koeffizienten , , die die negative log-Wahrscheinlichkeit (dh die Wahrscheinlichkeit maximieren) der beobachteten Daten minimieren, auch das empirische Risiko der Daten mit Verlustfunktion, das durch die Mahalanobis-Distanz gegeben ist.β0,β1

Ben CW
quelle
1
Nicht ganz. Dieser Begriff, der ändert die Dinge ziemlich stark. Und Sie scheinen sich auf die andere Dimension konzentriert zu haben: Die Mahalanobis-Distanz spielt tatsächlich eine viel wichtigere Rolle im von den Säulen aufgespannten dimensionalen Raum, da dies mit der Hebelwirkung zusammenhängt. Die Leser werden jedoch wahrscheinlich durch die Umkehrung der Rollen von und in Ihrer Notation verwirrt : ist der Parametervektor und die Entwurfsmatrix! logdetCnxβxβ
Whuber
Ich wollte, dass hier ein einzelnes gekennzeichnetes Übungsbeispiel kennzeichnet (also hier keine Entwurfsmatrix). Der Grund, warum ein Vektor ist, besteht darin, dass ich eine multivariate Regression durchführe (andernfalls wäre der Rauschausdruck eine Gaußsche Variable, es gäbe keine Kovarianzmatrix, und das Beispiel könnte zu trivial erscheinen). Vielleicht ist meine Notation nicht standardisiert, da mein Hintergrund nicht in der Statistik liegt. In Bezug auf das Vorhandensein des Begriffs ich gemeint, dass . y ϵ log det C a r g m i n β [ - log p ( y x ; β ) ] = a r g m i n β (x,y)yϵlogdetCargminβ[logp(yx;β)]=argminβ(yβx)C1(yβx)
Ben CW
Es ist wichtig zu erklären, worauf sich Ihre Symbole beziehen, anstatt dass der Leser raten muss. Möglicherweise ist Ihre Erklärung eine gute, aber ohne diese Erklärung (die Sie mit dem letzten Kommentar begonnen haben) haben die meisten Leser vermutlich Probleme, Ihre Bedeutung zu verstehen.
whuber
2
Ich verstehe dein Argument. Ich habe die ursprüngliche Antwort bearbeitet, um einige der Ideen in diese Kommentare aufzunehmen.
Ben CW
2

Die Mahalanobis-Distanz ist eine euklidische Distanz (natürliche Distanz), die die Kovarianz von Daten berücksichtigt. Rauschintensive Komponenten werden stärker gewichtet. Daher ist es sehr nützlich, die Ähnlichkeit zwischen zwei Datensätzen zu überprüfen.

Wie Sie in Ihrem Beispiel hier sehen können, wenn Variablen korreliert sind, wird die Verteilung in eine Richtung verschoben. Möglicherweise möchten Sie diese Effekte entfernen. Wenn Sie die Korrelation in Ihrer Distanz berücksichtigen, können Sie den Verschiebungseffekt entfernen.

Lcrmorin
quelle
2
Ich glaube, der Mahalanobis-Abstand wiegt die Richtungen der großen Kovarianz effektiv ab , anstatt dort "größere" Gewichte zu geben.
whuber