Ich versuche, mich mit dem statistischen Unterschied zwischen linearer Diskriminanzanalyse und logistischer Regression auseinanderzusetzen . Wenn ich richtig verstehe , sagt LDA für ein Zweiklassen- Klassifizierungsproblem zwei Normaldichtefunktionen (eine für jede Klasse) voraus, die eine lineare Grenze dort bilden, wo sie sich schneiden, während die logistische Regression nur die ungerade logarithmische Funktion zwischen den beiden Klassen vorhersagt, die schafft eine Grenze, übernimmt aber nicht Dichtefunktionen für jede Klasse?
regression
logistic
classification
discriminant-analysis
user1885116
quelle
quelle
Antworten:
Es klingt für mich, dass Sie richtig sind. Die logistische Regression nimmt in der Tat im Raum der Prädiktorvariablen keine spezifischen Formen der Dichte an, die LDA jedoch. Hier sind kurz einige Unterschiede zwischen den beiden Analysen.
Binary Logistic Regression (BLR) vs. lineare Diskriminanzanalyse (mit 2 Gruppen: auch als Fisher's LDA bekannt):
BLR : Basierend auf der Maximum-Likelihood-Schätzung. LDA : Basierend auf der Schätzung der kleinsten Quadrate; äquivalent zur linearen Regression mit binärem Vorhersagewert (Koeffizienten sind proportional und R-Quadrat = 1-Wilk-Lambda).
BLR : Schätzt die Wahrscheinlichkeit (der Gruppenmitgliedschaft) sofort (der Vorhersagende wird selbst als wahrscheinliche, beobachtete) und bedingt. LDA : Schätzt die Wahrscheinlichkeit mittelbar (der Vorhersagende und der Unterscheidende werden als zusammenhängende Variable betrachtet) über ein Klassifizierungsgerät (wie naive Bayes), das sowohl bedingte als auch marginale Informationen verwendet.
BLR : Nicht so genau auf der Ebene der Skala und der Form der Verteilung in Prädiktoren. LDA : Predictirs wünschenswert Intervallebene mit multivariater Normalverteilung.
BLR : Keine Anforderungen an die gruppeninternen Kovarianzmatrizen der Prädiktoren. LDA : Die Kovarianzmatrizen innerhalb der Gruppe sollten in der Grundgesamtheit identisch sein.
BLR : Nicht so empfindlich gegenüber Ausreißern. LDA : Sehr empfindlich gegenüber Ausreißern.
BLR : Jüngere Methode. LDA : Ältere Methode.
BLR : In der Regel bevorzugt, weil weniger anspruchsvoll / robuster. LDA : Klassifiziert bei allen erfüllten Anforderungen häufig besser als BLR (asymptotische relative Effizienz 3/2 mal höher als).
quelle
Lassen Sie mich einige Punkte zu @ttnphns netter Liste hinzufügen:
Die Bayes-Vorhersage der Zugehörigkeitswahrscheinlichkeit zur hinteren Klasse der LDA folgt ebenfalls einer logistischen Kurve.
[Efron, B. Die Effizienz der logistischen Regression im Vergleich zur normalen Diskriminanzanalyse, J Am Stat Assoc, 70, 892-898 (1975).]
Während dieses Papier zeigt, dass die relative Effizienz von LDA LR überlegen ist, wenn die Annahmen der LDA erfüllt sind (siehe Efron-Papier oben, letzter Punkt von @tthnps), gibt es nach den Elementen des statistischen Lernens in der Praxis kaum einen Unterschied.
[Hastie, T. und Tibshirani, R. und Friedman, J. Die Elemente des statistischen Lernens; Data Mining, Inferenz und Vorhersage Springer Verlag, New York, 2009]
Diese enorm erhöhte relative Effizienz der LDA tritt meist in asymptotischen Fällen auf, in denen der absolute Fehler sowieso praktisch vernachlässigbar ist.
[Harrell, FE & Lee, KL Ein Vergleich der Diskriminierung von Diskriminanzanalyse und logistischer Regression unter multivariater Normalität, Biostatistics: Statistics in Biomedical, Public Health and Environmental Sciences, 333-343 (1985).]
In der Praxis bin ich jedoch auf hochdimensionale Situationen mit kleiner Stichprobengröße gestoßen, in denen die LDA überlegen zu sein scheint (obwohl sowohl die multivariate Normalität als auch die Kovarianzmatrix-Annahmen sichtbar nicht erfüllt sind).
[ Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. & amp; Salzer, R. Raman, spektroskopische Einstufung von Astrozytomgeweben: unter Verwendung von weichen Referenzinformationen, Anal Bioanal Chem, 400, 2801–2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]
Beachten Sie jedoch, dass der LR in unserer Arbeit möglicherweise mit dem Problem zu kämpfen hat, dass Richtungen mit (nahezu) perfekter Trennbarkeit gefunden werden können. Die LDA ist möglicherweise weniger stark überpassend.
Die bekannten Annahmen für LDA werden nur benötigt, um die Optimalität zu beweisen. Wenn sie nicht erfüllt werden, kann die Prozedur immer noch eine gute Heuristik sein.
Ein Unterschied, der für mich in der Praxis wichtig ist, weil sich herausstellt, dass die Klassifizierungsprobleme, an denen ich manchmal / häufig arbeite, eigentlich gar nicht so eindeutig sind: LR kann problemlos mit Daten durchgeführt werden, bei denen die Referenz über mittlere Klassenmitgliedschaftsstufen verfügt. Immerhin handelt es sich um eine Regressionstechnik .
[siehe oben verlinktes Papier]
Sie können sagen, dass sich LR mehr als LDA auf Beispiele in der Nähe der Klassengrenze konzentriert und Fälle auf der "Rückseite" der Verteilungen grundsätzlich außer Acht lässt.
Dies erklärt auch, warum es weniger empfindlich gegenüber Ausreißern (dh solchen auf der Rückseite) ist als LDA.
(Support Vector Machines wäre ein Klassifikator, der diese Richtung bis zum Ende geht: Hier wird alles außer den Fällen an der Grenze ignoriert.)
quelle