Was bedeutet im Allgemeinen, dass der Bruchteil der Varianz in einer Analyse wie PCA durch die erste Hauptkomponente erklärt wird? Kann jemand dies intuitiv erklären, aber auch eine genaue mathematische Definition dessen geben, was "erklärte Varianz" im Sinne der Hauptkomponentenanalyse (PCA) bedeutet?
Für eine einfache lineare Regression wird das R-Quadrat der Best-Fit-Linie immer als der Anteil der erklärten Varianz beschrieben, aber ich bin mir auch nicht sicher, was ich daraus machen soll. Ist der Varianzanteil hier nur das Ausmaß der Abweichung der Punkte von der Best-Fit-Linie?
Antworten:
Im Fall der PCA „Varianz“ bedeutet summative Varianz oder multivariate Variabilität oder Gesamtvariabilität oder Gesamtvariabilität . Unten sehen Sie die Kovarianzmatrix von 3 Variablen. Ihre Varianzen liegen auf der Diagonale und die Summe der 3 Werte (3.448) ist die Gesamtvariabilität.
Jetzt ersetzt PCA die ursprünglichen Variablen durch neue Variablen, die als Hauptkomponenten bezeichnet werden. Sie sind orthogonal (dh sie haben keine Kovariationen) und haben Varianzen (sogenannte Eigenwerte) in absteigender Reihenfolge. Die Kovarianzmatrix zwischen den aus den obigen Daten extrahierten Hauptkomponenten lautet also:
Beachten Sie, dass die Diagonalsumme immer noch 3,448 beträgt, was besagt, dass alle 3 Komponenten für die multivariate Variabilität verantwortlich sind. Die 1. Hauptkomponente macht 1,651 / 3,448 = 47,9% der Gesamtvariabilität aus oder "erklärt" sie; der 2. erklärt 1.220 / 3.448 = 35,4% davon; der dritte erklärt .577 / 3.448 = 16,7% davon.
Was bedeuten sie also, wenn sie sagen, dass " PCA die Varianz maximiert " oder " PCA die maximale Varianz erklärt "? Das heißt natürlich nicht, dass es die größte Varianz unter drei Werten findet
1.343730519 .619205620 1.485549631
, nein. PCA findet, im Datenraum, die Dimension (Richtung) mit der größten Abweichung von der Gesamtvarianz1.343730519+.619205620+1.485549631 = 3.448
. Diese größte Varianz wäre1.651354285
. Dann wird aus der verbleibenden3.448-1.651354285
Gesamtvarianz die Dimension der zweitgrößten, orthogonal zur ersten Varianz ermittelt. Diese 2. Dimension wäre1.220288343
Varianz. Und so weiter. Die letzte verbleibende Dimension ist die.576843142
Varianz. Siehe auch "Pt3" hier und die tolle Antwort hier Erklären, wie es im Detail gemacht wurde.Mathematisch wird PCA über lineare Algebra-Funktionen ausgeführt, die als Eigenzerlegung oder Svd-Zerlegung bezeichnet werden. Diese Funktionen geben alle Eigenwerte
1.651354285 1.220288343 .576843142
(und die entsprechenden Eigenvektoren) auf einmal zurück ( siehe , siehe ).quelle
@ttnphns hat eine gute Antwort geliefert, vielleicht kann ich ein paar Punkte hinzufügen. Zunächst möchte ich darauf hinweisen, dass es im Lebenslauf eine relevante Frage gab , die eine wirklich überzeugende Antwort enthält - Sie möchten sie auf jeden Fall prüfen. Im Folgenden beziehe ich mich auf die in dieser Antwort gezeigten Handlungen.
Alle drei Diagramme zeigen dieselben Daten an. Beachten Sie, dass die Daten sowohl vertikal als auch horizontal variabel sind. Wir können uns jedoch vorstellen, dass der größte Teil der Variabilität tatsächlich diagonal ist . In der dritten Darstellung ist diese lange schwarze diagonale Linie der erste Eigenvektor (oder die erste Hauptkomponente) und die Länge dieser Hauptkomponente (die Streuung der Daten entlang dieser Linie - nicht tatsächlich die Länge der Linie selbst, die ist nur auf dem Plot gezeichnet) ist der erste Eigenwert--es ist der Betrag der Varianz, der von der ersten Hauptkomponente berücksichtigt wird. Wenn Sie diese Länge mit der Länge der zweiten Hauptkomponente (dh der Breite der orthogonal von dieser diagonalen Linie ausgehenden Streuung der Daten) summieren und dann einen der Eigenwerte durch diese Summe dividieren, erhalten Sie den Prozentsatz der Varianz, die auf die entsprechende Hauptkomponente entfällt.
Um andererseits den Prozentsatz der Varianz zu verstehen, die in der Regression berücksichtigt wird, können Sie sich das obere Diagramm ansehen. In diesem Fall ist die rote Linie die Regressionslinie oder die Menge der vorhergesagten Werte aus dem Modell. Die erläuterte Varianz kann als das Verhältnis der vertikalen Streuung der Regressionslinie (dh vom niedrigsten Punkt der Linie zum höchsten Punkt der Linie) zur vertikalen Streuung der Daten (dh vom niedrigsten Datenpunkt) verstanden werden zum höchsten Datenpunkt). Das ist natürlich nur eine lose Idee, denn das sind buchstäblich Bereiche, keine Abweichungen, aber das sollte Ihnen helfen, den Punkt zu verstehen.
Lesen Sie unbedingt die Frage. Und obwohl ich mich auf die Top-Antwort bezog, sind einige der gegebenen Antworten ausgezeichnet. Es ist Ihre Zeit wert, sie alle zu lesen.
quelle
Es gibt eine sehr einfache, direkte und präzise mathematische Antwort auf die ursprüngliche Frage.
In diesem Sinne können Sie den ersten PC als Maximierer der "erklärten Varianz" oder genauer als Maximierer der "erklärten Gesamtvarianz" interpretieren.
Verweise auf Originalliteratur und Erweiterungen finden Sie unter
Westfall, PH, Arias, AL und Fulton, LV (2017). Lehren von Hauptkomponenten unter Verwendung von Korrelationen, Multivariate Verhaltensforschung, 52, 648-660.
quelle
quelle