Können wir bei der Diskriminanzanalyse eine kategoriale unabhängige Variable verwenden?

14

Bei der Diskriminanzanalyse ist die abhängige Variable kategorisch. Kann ich jedoch eine kategoriale Variable (z. B. Wohnstatus: ländlich, städtisch) zusammen mit einer anderen kontinuierlichen Variablen als unabhängige Variable bei der linearen Diskriminanzanalyse verwenden?

kuwoli
quelle
Ähnliche Frage
ttnphns

Antworten:

14

Die Diskriminanzanalyse geht von einer multivariaten Normalverteilung aus, da das, was wir normalerweise als Prädiktoren betrachten, tatsächlich eine multivariate abhängige Variable ist und die Gruppierungsvariable als Prädiktor betrachtet wird. Dies bedeutet, dass kategoriale Variablen, die als Prädiktoren in dem von Ihnen gewünschten Sinne behandelt werden sollen, nicht gut behandelt werden. Dies ist ein Grund, warum viele, einschließlich ich, die Diskriminanzanalyse als durch logistische Regression überholt betrachten. Die logistische Regression trifft weder auf der linken noch auf der rechten Seite des Modells Verteilungsannahmen. Die logistische Regression ist ein direktes Wahrscheinlichkeitsmodell und erfordert nicht die Verwendung der Bayes-Regel, um Ergebnisse in Wahrscheinlichkeiten umzuwandeln, ebenso wie die Diskriminanzanalyse.

Frank Harrell
quelle
Vielen Dank, Herr Frank Harrell, für Ihre Antwort. Eigentlich möchte ich die Ergebnisse der Diskriminatanalyse und der logistischen Regression (Logit-Modell) mit demselben Variablensatz vergleichen. Wenn ich zu diesem Zweck die kategorialen Variablen in der Diskriminanzanalyse als unabhängige Variable verwenden muss, gibt es dann eine Möglichkeit?
Kuwoli
6

Die kurze Antwort lautet eher nein als ja.

Eine Vorbemerkung. Es ist schwer zu sagen, ob die Variablen, die aus sich selbst Diskriminanzfunktionen erzeugen, als "unabhängig" oder "abhängig" bezeichnet werden sollten. LDA ist im Grunde ein spezifischer Fall der kanonischen Korrelationsanalyse und daher ambidirektional. Es kann als MANOVA (mit der Klassenvariablen als unabhängigem Faktor) oder, wenn die Klasse dichotom ist, als lineare Regression der Klasse als abhängige Variable angesehen werden. Es ist nicht ganz legal, LDA immer mit einseitigen Regressionen wie logistischen abzulehnen.

LDA geht davon aus, dass die Variablen (die Sie als "unabhängig" bezeichnet haben) aus einer multivariaten Normalverteilung stammen, also alle kontinuierlich. Diese Annahme ist wichtig für (1) die Klassifizierungsstufe der LDA und (2) das Testen der Signifikanz der in der Extraktionsstufe erzeugten Diskriminanten. Das Extrahieren der Diskriminanten selbst erfordert nicht die Annahme.

LDA ist jedoch ziemlich robust gegenüber der Verletzung der Annahme, die manchmal als Garantie dafür angesehen wird, dies auf binär zu tun . In der Tat tun es einige Leute. Kanonische Korrelationen (von denen LDA ein spezieller Fall ist) können durchgeführt werden, wenn beide Mengen aus binären oder sogar Dummy-Binärvariablen bestehen. Auch hier gibt es kein Problem mit der Extraktion der latenten Funktionen; Die Probleme mit einer solchen Anwendung treten möglicherweise auf, wenn p-Werte oder klassifizierende Objekte aufgerufen werden.

Aus binären / ordinalen Variablen könnte man tetrachorische / polychrone Korrelationen berechnen und an LDA senden (wenn das Programm die Eingabe von Korrelationsmatrizen anstelle von Daten zulässt); Die Berechnung der Diskriminanzwerte auf Fällebene ist jedoch problematisch.

Ein flexiblerer Ansatz wäre, kategoriale (ordinale, nominale) Variablen durch optimale Skalierung / Quantifizierung in kontinuierliche Variablen umzuwandeln . Nichtlineare kanonische Korrelationsanalyse (OVERALS). Dies geschieht unter der Aufgabe, die kanonischen Korrelationen zwischen den beiden Seiten (der Klassenvariablen und den kategorialen "Prädiktoren") zu maximieren. Sie können dann LDA mit den transformierten Variablen versuchen.

(Multinomiale oder binäre) logistische Regression kann eine weitere Alternative zu LDA sein.

ttnphns
quelle
Dies ist viel mehr als nur die Verwendung eines Modells, das für die Situation vorgesehen war (logistische Regression). Die Diskriminanzanalyse ist nicht so robust wie manche denken. Mit einem einzigen kategorialen Prädiktor, der binär ist, kann leicht gezeigt werden, dass die posterioren Wahrscheinlichkeiten von da nicht sehr genau sind (z. B. die Wahrscheinlichkeit eines Ereignisses bei gegebenem Geschlecht eines Probanden vorhersagen).
Frank Harrell