Diskriminanzanalyse vs. logistische Regression

Ich habe einige Profis der Diskriminanzanalyse gefunden und habe Fragen dazu. So:

Wenn die Klassen gut voneinander getrennt sind, sind die Parameterschätzungen für die logistische Regression überraschend instabil. Koeffizienten können bis unendlich gehen. LDA leidet nicht unter diesem Problem.

Wenn die Anzahl der Merkmale gering ist und die Verteilung der Prädiktoren $X$ in jeder der Klassen ungefähr normal ist, ist das lineare Diskriminanzmodell wieder stabiler als das logistische Regressionsmodell.

Was ist Stabilität und warum ist es wichtig? (Wenn logistische Regression eine gute Anpassung ergibt, die ihre Aufgabe erfüllt, warum sollte ich mich dann um Stabilität kümmern?)

LDA ist beliebt, wenn wir mehr als zwei Antwortklassen haben, da es auch niedrig dimensionierte Ansichten der Daten bietet.

Das verstehe ich einfach nicht. Wie liefert LDA niedrig dimensionale Ansichten?
Wenn Sie mehr Vor- oder Nachteile nennen können, wäre das schön.

regression logistic multivariate-analysis discriminant-analysis Yurii
quelle

Vielleicht möchten Sie auch andere Fragen und Antworten zu diesem Thema lesen (lda vs logistic). Bitte durchsuchen Sie diese Seite.

TTNPHNS

Antworten:

Wenn die Klassen gut voneinander getrennt sind, sind die Parameterschätzungen für die logistische Regression überraschend instabil. Koeffizienten können bis unendlich gehen. LDA leidet nicht unter diesem Problem.

Wenn es kovariate Werte gibt, die das binäre Ergebnis perfekt vorhersagen können, konvergiert der Algorithmus der logistischen Regression, dh das Fisher-Scoring, nicht einmal. Wenn Sie R oder SAS verwenden, erhalten Sie eine Warnung, dass Wahrscheinlichkeiten von Null und Eins berechnet wurden und der Algorithmus abgestürzt ist. Dies ist der Extremfall einer perfekten Trennung, aber selbst wenn die Daten nur zu einem großen Teil und nicht perfekt getrennt sind, existiert der Maximum-Likelihood-Schätzer möglicherweise nicht, und selbst wenn er existiert, sind die Schätzungen nicht zuverlässig. Die resultierende Passform ist überhaupt nicht gut. Auf dieser Seite gibt es viele Themen, die sich mit dem Problem der Trennung befassen.

Im Gegensatz dazu stößt man bei Fisher-Diskriminanten nicht oft auf Schätzungsprobleme. Es kann immer noch vorkommen, dass entweder die Kovarianzmatrix zwischen oder innerhalb der Kovarianzmatrix singulär ist, aber dies ist ein eher seltener Fall. In der Tat ist es umso besser, wenn eine vollständige oder quasi vollständige Trennung vorliegt, da die Diskriminante mit größerer Wahrscheinlichkeit erfolgreich ist.

Erwähnenswert ist auch, dass LDA entgegen der landläufigen Meinung keine Verteilungsannahmen zugrunde legt. Wir fordern implizit nur die Gleichheit der Populations-Kovarianzmatrizen, da ein gepoolter Schätzer für die innere Kovarianzmatrix verwendet wird. Unter den zusätzlichen Annahmen von Normalität, gleichen vorherigen Wahrscheinlichkeiten und Fehlklassifizierungskosten ist die LDA in dem Sinne optimal, dass sie die Wahrscheinlichkeit einer Fehlklassifizierung minimiert.

Wie liefert LDA niedrig dimensionale Ansichten?

Dies ist bei zwei Populationen und zwei Variablen leichter zu erkennen. Hier ist eine bildliche Darstellung, wie LDA in diesem Fall funktioniert. Denken Sie daran, dass wir nach linearen Kombinationen der Variablen suchen , die die Trennbarkeit maximieren.

Daher werden die Daten auf den Vektor projiziert, dessen Richtung diese Trennung besser erreicht. Wie wir feststellen, dass der Vektor ein interessantes Problem der linearen Algebra ist, maximieren wir im Grunde genommen einen Rayleigh-Quotienten, lassen dies aber zunächst beiseite. Wenn die Daten auf diesen Vektor projiziert werden, wird die Bemaßung von zwei auf eins reduziert.

Der allgemeine Fall von mehr als zwei Populationen und Variablen wird ähnlich behandelt. Wenn die Bemaßung groß ist, werden linearere Kombinationen verwendet, um sie zu reduzieren. In diesem Fall werden die Daten auf Ebenen oder Hyperebenen projiziert. Es gibt natürlich eine Grenze für die Anzahl der Linearkombinationen, die sich aus der ursprünglichen Dimension der Daten ergibt. Wenn wir die Anzahl der Prädiktorvariablen mit und die Anzahl der Populationen mit , stellt sich heraus, dass die Anzahl höchstens beträgt $p$ $g$ $\min(g-1,p)$ .

Wenn Sie mehr Vor- oder Nachteile nennen können, wäre das schön.

Die niederdimensionale Darstellung ist jedoch nicht ohne Nachteile, wobei der wichtigste natürlich der Informationsverlust ist. Dies ist weniger problematisch, wenn die Daten vorliegen linear trennbar sind, aber wenn dies nicht der Fall ist, kann der Informationsverlust erheblich sein und der Klassifikator wird eine schlechte Leistung erbringen.

Es kann auch Fälle geben, in denen die Gleichheit von Kovarianzmatrizen möglicherweise keine verlässliche Annahme ist. Sie können einen Test anwenden, um sicherzustellen, dass diese Tests sehr empfindlich auf Abweichungen von der Normalität reagieren. Daher müssen Sie diese zusätzliche Annahme treffen und auch testen. Wenn sich herausstellt, dass die Populationen normal sind und ungleiche Kovarianzmatrizen aufweisen, könnte stattdessen eine quadratische Klassifizierungsregel (QDA) verwendet werden, aber ich finde, dass dies eine ziemlich umständliche Regel ist, ganz zu schweigen von der Tatsache, dass sie in hohen Dimensionen nicht intuitiv ist.

Insgesamt ist der Hauptvorteil der LDA das Vorhandensein einer expliziten Lösung und deren Rechenfreundlichkeit, was bei fortgeschritteneren Klassifizierungstechniken wie SVM oder neuronalen Netzen nicht der Fall ist. Der Preis, den wir zahlen, sind die dazugehörigen Annahmen, nämlich die lineare Trennbarkeit und die Gleichheit der Kovarianzmatrizen.

Hoffe das hilft.

EDIT : Ich vermute, dass meine Behauptung, dass die LDA für die von mir genannten spezifischen Fälle keine anderen Verteilungsannahmen erfordert als die Gleichheit der Kovarianzmatrizen, mich eine Ablehnung gekostet hat. Dies ist jedoch nicht weniger wahr, lassen Sie mich genauer sein.

$\bar{\mathbf{x}}_i, \ i = 1,2$ $\mathbf{S}_{\text{pooled}}$

max_{a} \frac{{(a^{T} {\bar{x}}_{1} - a^{T} {\bar{x}}_{2})}^{2}}{a^{T} S_{pooled} a} = max_{a} \frac{{(a^{T} d)}^{2}}{a^{T} S_{pooled} a}

$\max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \bar{\mathbf{x}}_1 - \mathbf{a}^{T} \bar{\mathbf{x}}_2 \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} } = \max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \mathbf{d} \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} }$

Die Lösung dieses Problems (bis zu einer Konstanten) kann gezeigt werden

a = S_{pooled}^{- 1} d = S_{pooled}^{- 1} ({\bar{x}}_{1} - {\bar{x}}_{2})

$\mathbf{a} = \mathbf{S}_{\text{pooled}}^{-1} \mathbf{d} = \mathbf{S}_{\text{pooled}}^{-1} \left( \bar{\mathbf{x}}_1 - \bar{\mathbf{x}}_2 \right)$

Dies entspricht der LDA, die Sie unter der Annahme von Normalität, gleichen Kovarianzmatrizen, Fehlklassifizierungskosten und vorherigen Wahrscheinlichkeiten ableiten, richtig? Na ja, außer jetzt, wo wir keine Normalität angenommen haben.

Es gibt nichts, was Sie davon abhält, die oben genannte Diskriminante in allen Einstellungen zu verwenden, selbst wenn die Kovarianzmatrizen nicht wirklich gleich sind. Es ist möglicherweise nicht optimal im Sinne der zu erwartenden Fehlklassifizierungskosten (ECM), aber dies wird überwacht gelernt, sodass Sie die Leistung immer beurteilen können, z. B. mithilfe des Hold-out-Verfahrens.

Verweise

Bischof Christopher M. Neuronale Netze zur Mustererkennung. Oxford University Press, 1995.

Johnson, Richard Arnold und Dean W. Wichern. Angewandte multivariate statistische Analyse. Vol. 4. Englewood Cliffs, NJ: Prentice Hall, 1992.

JohnK
quelle

(Ich bin nicht der Benutzer, der das Abstimmen beendet hat). Um Ihre Antwort mit der von Frank Harell in Einklang zu bringen, muss man meines Erachtens immer noch davon ausgehen, dass alle Variablen stetig sind (ansonsten wäre das Maximum des Rayleigh-Quotienten meines Erachtens nicht eindeutig).

user603

@ user603 Ich habe diesen Zustand nirgends gesehen. Die Lösung wird ohnehin nur bis zu einer Konstanten bestimmt.

JohnK

John, Stellen Sie sich vor, es gibt nur zwei Klassen (und somit nur eine Diskriminanzlinie) mit identischen, symmetrischen (ellipsoidalen) Verteilungen und gleichen vorherigen Wahrscheinlichkeiten. Dann brauchen wir in der Tat keine spezielle Normalverteilung anzunehmen, da wir kein PDF benötigen, um einen Fall einer Klasse zuzuweisen. In komplexeren Einstellungen (wie 3+ Klassen) müssen wir einige PDFs verwenden, und das ist normalerweise normal.

TTNPHNS

W^{- 1} B

$\mathbf{W}^{-1} \mathbf{B}$

W

$\mathbf{W}$

B

$\mathbf{B}$

John, dein letzter Kommentar ist, was ist mit dir und ich stimme dem zu.

TTNPHNS

Die LDA geht im Gegensatz zur logistischen Regression von strengen Verteilungsannahmen (multivariate Normalität aller Prädiktoren) aus. Wenn Sie versuchen, die hinteren Wahrscheinlichkeiten der Klassenmitgliedschaft auf der Grundlage des Geschlechts der Probanden zu ermitteln, werden Sie sehen, was ich meine - die Wahrscheinlichkeiten sind nicht genau.

$Y=1$ $\beta$ $\pm \infty$ $\pm 30$

Sehen Sie diese für weitere Informationen.

Beachten Sie, dass nach dem Bayes-Theorem die Annahmen der logistischen Regression gelten, wenn die multivariable Normalität gilt. Das Gegenteil ist nicht wahr.

Normalität (oder zumindest Symmetrie) muss beinahe zutreffen, damit Varianzen und Kovarianzen "den Job machen". Nicht multivariate normalverteilte Prädiktoren beeinträchtigen sogar die Diskriminantenextraktionsphase.

Frank Harrell
quelle

Meines Erachtens ist Normalität besonders im Stadium der Klassifizierung (Klassenvorhersage) der LDA erforderlich. Es ist in der Phase der Diskriminantenextraktion (Dimensionsreduktion) nicht erforderlich, die jedoch immer noch eine Varianz-Kovarianz-Homogenität annimmt. (Interessanterweise kann die letztgenannte Annahme bei der Klassifizierung etwas

zutage treten

t

$t$

t

$t$

t

$t$

Ja, SD geht von verschiedenen Annahmen aus und ist nicht robust. In geringerem Maße lässt der Mittelwert einige Annahmen als sinnvoll erscheinen. Least Squares, PCA und LDA gehen effektiv von mehr Verteilungsannahmen aus, als viele Leute denken.

Frank Harrell

Diese Argumentation überzeugt mich nicht und ich glaube immer noch, dass die Ablehnung unfair war, aber ich bin in dieser Angelegenheit keine Autorität. Die Referenzen, die ich zur Verfügung gestellt habe, werden Ihnen jedoch das gleiche verraten.

JohnK

Wenn die Klassen gut voneinander getrennt sind, sind die Parameterschätzungen für die logistische Regression überraschend instabil. Koeffizienten können bis unendlich gehen. LDA leidet nicht unter diesem Problem.

Haftungsausschluss: Was hier folgt, lässt die mathematische Genauigkeit völlig vermissen.

Um eine (nichtlineare) Funktion gut anzupassen, benötigen Sie Beobachtungen in allen Bereichen der Funktion, in denen sich "ihre Form ändert". Die logistische Regression fügt den Daten eine Sigmoid-Funktion hinzu:

Bei gut getrennten Klassen fallen alle Beobachtungen auf die beiden "Enden", an denen sich das Sigma seinen Asymptoten nähert (0 und 1). Da in diesen Regionen sozusagen alle Sigmoide "gleich aussehen", ist es kein Wunder, dass der schlecht passende Algorithmus Schwierigkeiten haben wird, "den richtigen" zu finden.

Schauen wir uns zwei (hoffentlich lehrreiche) Beispiele an, die mit R berechnet wurden glm() Funktion von .

Fall 1: Die beiden Gruppen überschneiden sich ziemlich stark:

und die Beobachtungen verteilen sich gut um den Inflexionspunkt des angepassten Sigmoid:

Dies sind die angepassten Parameter mit schönen niedrigen Standardfehlern:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

und die Abweichung sieht auch OK aus:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Fall 2: Die beiden Gruppen sind gut getrennt:

und die Beobachtungen liegen praktisch alle auf den Asymptoten. Die glm()Funktion versuchte ihr Bestes, um etwas zu passen, beklagte sich jedoch über die numerischen Wahrscheinlichkeiten 0 oder 1, da einfach keine Beobachtungen verfügbar sind, um die Form des Sigmoid um seinen Wendepunkt herum "richtig zu machen":

Sie können das Problem diagnostizieren, indem Sie feststellen, dass die Standardfehler der geschätzten Parameter das Dach durchdringen:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

und gleichzeitig sieht die Abweichung verdächtig gut aus (weil die Beobachtungen gut zu den Asymptoten passen):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

Zumindest intuitiv sollte aus diesen Überlegungen klar werden, warum "die Parameterschätzungen für die logistische Regression überraschend instabil sind".

Laryx Decidua
quelle

Schau dir die Antwort von @Frank Harrell an, die eindeutig nicht mit dir übereinstimmt! Und studieren Sie seine Links und Verweise ...

kjetil b halvorsen

@kjetilbhalvorsen Mein Hauptpunkt ist eine intuitive Darstellung der "überraschend instabilen" Passform. Ich habe den letzten Satz, der sich auf die LDA bezieht, gestrichen.

Laryx Decidua