Mahalanobis-Abstand bei nicht normalen Daten

8

Der Mahalanobis-Abstand nimmt bei Verwendung zu Klassifizierungszwecken typischerweise eine multivariate Normalverteilung an, und die Abstände vom Schwerpunkt sollten dann einer Verteilung folgen (wobei Freiheitsgrade gleich der Anzahl der Dimensionen / Merkmale sind). Wir können die Wahrscheinlichkeit, dass ein neuer Datenpunkt zur Menge gehört, anhand seiner Mahalanobis-Entfernung berechnen.χ2d

Ich habe Datensätze, die keiner multivariaten Normalverteilung folgen ( ). Theoretisch sollte jedes Merkmal einer Poisson-Verteilung folgen, und empirisch scheint dies für viele ( ) Merkmale der Fall zu sein , und diejenigen, die sich nicht im Rauschen befinden und aus der Analyse entfernt werden können. Wie kann ich neue Punkte für diese Daten klassifizieren?d1000200

Ich denke, es gibt zwei Komponenten:

  1. Was ist eine geeignete "Mahalanobis-Distanz" -Formel für diese Daten (dh multivariate Poisson-Verteilung)? Gibt es eine Verallgemeinerung der Entfernung zu anderen Verteilungen?
  2. Ob ich den normalen Mahalanobis-Abstand oder eine andere Formulierung verwende, wie sollte die Verteilung dieser Abstände sein? Gibt es eine andere Möglichkeit, den Hypothesentest durchzuführen?

Alternative...

Die Anzahl der bekannten Datenpunkte in jeder Klasse variiert stark von (zu wenige; ich werde empirisch ein Minimum bestimmen) bis etwa . Der Mahalanobis-Abstand skaliert mit , sodass Abstände von einem Modell / einer Klasse zum nächsten nicht direkt verglichen werden können. Wenn die Daten normal verteilt sind, bietet der Chi-Quadrat-Test eine Möglichkeit, Entfernungen von verschiedenen Modellen zu vergleichen (zusätzlich zur Bereitstellung kritischer Werte oder Wahrscheinlichkeiten). Wenn es eine andere Möglichkeit ist, direkt auf die „Mahalanobis-like“ Entfernungen zu vergleichen, auch wenn es sich nicht Wahrscheinlichkeiten liefern, könnte ich damit arbeiten.nn=1n=6000n

jmilloy
quelle

Antworten:

6

Vielleicht möchten Sie Karlis und Meligkotsidou, "Multivariate Poisson-Regression mit Kovarianzstruktur", ausprobieren. 2005. In diesem Artikel geht es um die Versuche der Autoren, multivariate Poisson-Variablen zu modellieren, die sie als schwierige Aufgabe anerkennen.

Die Verwendung der Mahalanobis-Distanz impliziert, dass die Inferenz über die Mittelwert- und Kovarianzmatrix erfolgen kann - und dies ist eine Eigenschaft der Normalverteilung allein. Wenn Sie die MD für Ihre Daten verwenden, geben Sie im Grunde vor, dass sie normal sind.

Placidia
quelle
Ich dachte, ich würde auch Tiku et al., "Mahalanobis-Distanz unter Nicht-Normalität", 2010 (auf die ich warte) und Ekstrom, "Mahalanobis-Distanz über Normalverteilungen", 2011, erwähnen (was mir nicht half, aber helfen konnte jemand anderes hilft mir).
Jmilloy