Wie hängt MANOVA mit LDA zusammen?

18

An mehreren Stellen sah ich die Behauptung, dass MANOVA wie ANOVA plus lineare Diskriminanzanalyse (LDA) ist, aber es wurde immer auf eine Art von Handbewegung gemacht. Ich würde gerne wissen, was es genau bedeuten soll.

Ich habe verschiedene Lehrbücher gefunden, die alle Details von MANOVA-Berechnungen beschreiben, aber es scheint sehr schwierig zu sein, eine gute allgemeine Diskussion (geschweige denn Bilder ) für jemanden zu finden, der kein Statistiker ist.

Amöbe sagt Reinstate Monica
quelle
2
Meine eigenen lokalen Berichte von LDA-Verwandten ANOVA und MANOVA sind dies , dies . Vielleicht winken sie von Hand, aber sie sprechen Ihr Thema in gewissem Maße an. Das wichtigste Sprichwort lautet: "LDA ist MANOVA, eingetaucht in eine latente Struktur". MANOVA ist eine sehr umfangreiche Einrichtung zum Testen von Hypothesen. es kann unter anderem die latente Struktur der Unterschiede analysieren; Diese Analyse beinhaltet LDA.
TTNPHNS
1
@ttnphns, ich fürchte, mein vorheriger Kommentar wurde nicht übermittelt (ich habe vergessen, Ihren Benutzernamen anzugeben), also lassen Sie mich wiederholen: Wow, vielen Dank, Ihre verknüpften Antworten scheinen sehr mit meiner Frage zu tun zu haben und ich muss sie übersehen haben in meiner Suche vor dem Posten. Ich werde einige Zeit brauchen, um sie zu verdauen, und ich werde danach vielleicht auf Sie zurückkommen, aber vielleicht könnten Sie mich jetzt schon auf einige Papiere / Bücher verweisen, die diese Themen behandeln? Ich würde gerne eine ausführliche Diskussion dieses Materials im Stil Ihrer verknüpften Antworten sehen.
Amöbe sagt Reinstate Monica
Nur ein alter und klassischer Account webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf . Übrigens habe ich es selbst noch nicht gelesen. Ein weiterer verwandter Artikel ist dl.acm.org/citation.cfm?id=1890259 .
TTNPHNS
@ttnphns: Danke. Ich habe meine Frage selbst beantwortet und im Grunde genommen einige Abbildungen und ein spezielles Beispiel für Ihre ausgezeichnete verknüpfte Antwort auf LDA / MANOVA bereitgestellt. Ich denke, sie ergänzen sich gut.
Amöbe sagt Reinstate Monica

Antworten:

21

In einer Nussschale

Sowohl Einweg-MANOVA als auch LDA beginnen mit der Zerlegung der Gesamtstreumatrix in die klasseninterne Streumatrix W und die klassenübergreifende Streumatrix B , so dass T = W + B ist . Man beachte , daß dies völlig analog ist , wie Einweg-ANOVA Gesamt zersetzt sum-of-Squares - T in within-Klasse und zwischen Klasse Summen der Quadrate: T = B + W . In ANOVA wird dann ein Verhältnis B / W berechnet und verwendet, um den p-Wert zu finden: Je größer dieses Verhältnis ist, desto kleiner ist der p-Wert. MANOVA und LDA bilden eine analoge multivariate Größe W - 1TWBT=W+BTT=B+WB/W .W1B

Ab hier sind sie anders. Der einzige Zweck von MANOVA besteht darin, zu testen, ob die Mittelwerte aller Gruppen gleich sind. Diese Nullhypothese würde bedeuten, dass eine ähnliche Größe wie W haben sollte . MANOVA führt also eine erneute Zerlegung von W - 1 B durch und findet seine Eigenwerte λ i . Die Idee ist nun zu testen, ob sie groß genug sind, um die Null abzulehnen. Es gibt vier gebräuchliche Wege, um aus der gesamten Menge von Eigenwerten λ i eine skalare Statistik zu bilden . Eine Möglichkeit besteht darin, die Summe aller Eigenwerte zu berechnen. Ein anderer Weg ist, den maximalen Eigenwert zu nehmen. In jedem Fall wird die Nullhypothese verworfen, wenn die gewählte Statistik groß genug ist.BWW1Bλiλi

Im Gegensatz dazu führt LDA eine erneute Zerlegung von und betrachtet die Eigenvektoren (nicht Eigenwerte). Diese Eigenvektoren definieren Richtungen im variablen Raum und werden Diskriminanzachsen genannt . Die Projektion der Daten auf die erste Diskriminanzachse weist eine Trennung der höchsten Klasse auf (gemessen als S / W ); auf die zweite - zweithöchste; usw. Wenn LDA zur Dimensionsreduzierung verwendet wird, können die Daten z. B. auf die ersten beiden Achsen projiziert werden, und die übrigen werden verworfen.W1BB/W

Siehe auch eine ausgezeichnete Antwort von @ttnphns in einem anderen Thread, der fast den gleichen Grund abdeckt.

Beispiel

Betrachten wir einen Einwegfall mit abhängigen Variablen und k = 3 Beobachtungsgruppen (dh einen Faktor mit drei Ebenen). Ich nehme den bekannten Fisher's Iris-Datensatz und betrachte nur die Kelchblattlänge und die Kelchblattbreite (zweidimensional). Hier ist das Streudiagramm:M=2k=3

Fisher Iris Streudiagramm

F2,147=119p=1031F2,147=49p=1017

TWB=TWW1B

Fisher Iris LDA

Gestrichelte Linien sind diskriminierende Achsen. Ich habe sie mit willkürlichen Längen gezeichnet, aber die längere Achse zeigt den Eigenvektor mit größerem Eigenwert (4.1) und den kürzeren - den mit kleinerem Eigenwert (0.02). Beachten Sie, dass sie nicht orthogonal sind, aber die Mathematik von LDA garantiert, dass die Projektionen auf diesen Achsen keine Korrelation aufweisen.

F=305p=1053p=105

W1BB/WF=B/W(Nk)/(k1)=4.1147/2=305N=150k=3

λ1=4.1λ2=0.02p=1055

F(8,4)

Fisher Iris LDA modifiziert

p=1055p=0.26p=10545p0.05p

MANOVA vs LDA als maschinelles Lernen vs. Statistik

Dies scheint mir nun einer der beispielhaften Fälle zu sein, in denen unterschiedliche Communitys für maschinelles Lernen und Statistik dieselbe Vorgehensweise verfolgen. Jedes Lehrbuch über maschinelles Lernen behandelt LDA, zeigt schöne Bilder usw., aber es würde nicht einmal MANOVA erwähnen (zB Bishop , Hastie und Murphy ). Wahrscheinlich, weil die Leute dort mehr an der Genauigkeit der LDA- Klassifizierung interessiert sind (was ungefähr der Effektgröße entspricht) und kein Interesse an der statistischen Signifikanz der Gruppendifferenz haben. Auf der anderen Seite würden Lehrbücher zur multivariaten Analyse MANOVA ad nauseam diskutieren, viele tabellarische Daten liefern (arrrgh), aber LDA selten erwähnen und noch seltener irgendwelche Diagramme zeigen (z. B.Anderson oder Harris ; jedoch Rencher & Christensen zu tun und Huberty & Olejnik wird auch „MANOVA und Diskriminanzanalyse“) genannt.

Factorial MANOVA

Die faktorielle MANOVA ist viel verwirrender, aber interessant zu betrachten, da sie sich von der LDA dahingehend unterscheidet, dass die "faktorielle LDA" nicht wirklich existiert und die faktorielle MANOVA keiner "üblichen LDA" direkt entspricht.

32=6

Fakultät MANOVA

In dieser Abbildung sind alle sechs "Zellen" (ich werde sie auch "Gruppen" oder "Klassen" nennen) gut voneinander getrennt, was in der Praxis natürlich selten vorkommt. Beachten Sie, dass es hier offensichtlich signifikante Haupteffekte beider Faktoren und auch signifikante Interaktionseffekte gibt (da die obere rechte Gruppe nach rechts verschoben ist; wenn ich sie in ihre "Gitter" -Position verschieben würde, gäbe es keine Interaktionseffekt).

Wie funktionieren MANOVA-Berechnungen in diesem Fall?

WBABAW1BA

BBBAB

T=BA+BB+BAB+W.
Bkann nicht eindeutig in eine Summe von drei Faktorbeiträgen zerlegt werden, da die Faktoren nicht mehr orthogonal sind; Dies ähnelt der Diskussion von Typ I / II / III SS in ANOVA.]

BAWA=TBA

W1BA

Amöbe sagt Reinstate Monica
quelle
+1, das war ein netter Bericht. Ich wechselte B^-1 Wzu W^-1 B. Ihr Bild mit Diskriminanten als Achsen ähnelt meiner Darstellung , ich glaube, Sie haben die gleiche "nichtorthogonale Rotation nach dem Ansatz der normalisierten Eigenvektoren" verwendet.
TTNPHNS
Ich fand ein bisschen dunstig MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive. MANOVA weiß natürlich nicht, dass wir LDA machen. MANOVA verbraucht einfach mehr df als ANOVA, da es sich um einen zweidimensionalen Test handelt. Deshalb muss die Potenz des p-Werts -54 statt -55 betragen.
TTNPHNS
Ich bezweifle, dass dies in Bezug auf die p-Werte sprechen sollte. Stattdessen der entscheidende Punkt, an dem MANOVA dieselbe Matrix W^-1 Bwie LDA analysiert . LDA baut daraus latente Variablen (die Diskriminanten) auf. MANOVA nicht; Die obige Matrix wird jedoch umfassender untersucht, indem verschiedene Statistiken (wie Pillais Spur, Hottelings Spur) berechnet werden, um Tests auf dieser Grundlage durchzuführen.
TTNPHNS
Die Handlung, die die Metapher von MANOVA (und ich denke, Sie möchten sie vielleicht zu Ihrer Antwort hinzufügen) im Gegensatz zu LDA (Ihr zweites Bild) ist, ist die Handlung, in der die drei Zentroiden durch gestrichelte Linien mit dem großen Zentroid verbunden sind .
TTNPHNS
Schließlich glaube ich nicht, dass Sie den Unterschied zwischen Statistik und maschinellem Lernen so hoch bewerten. Ich habe die statistische Datenanalyse gelernt, bevor ich machine learningdas erste Mal ein Wort hörte . Und die Texte, die ich damals las, diskutierten zusammen mit MANOVA ziemlich viel über LDA.
TTNPHNS