PCA und Varianzanteil erklärt

90

Was bedeutet im Allgemeinen, dass der Bruchteil der Varianz in einer Analyse wie PCA durch die erste Hauptkomponente erklärt wird? Kann jemand dies intuitiv erklären, aber auch eine genaue mathematische Definition dessen geben, was "erklärte Varianz" im Sinne der Hauptkomponentenanalyse (PCA) bedeutet? $x$

Für eine einfache lineare Regression wird das R-Quadrat der Best-Fit-Linie immer als der Anteil der erklärten Varianz beschrieben, aber ich bin mir auch nicht sicher, was ich daraus machen soll. Ist der Varianzanteil hier nur das Ausmaß der Abweichung der Punkte von der Best-Fit-Linie?

regression pca linear-model dimensionality-reduction user9097
quelle

Siehe auch questions / tagged / regression + effect-size -> Abelson, A Variance Explanation Paradox , 1985, 5p.

Denis

103

Im Fall der PCA „Varianz“ bedeutet summative Varianz oder multivariate Variabilität oder Gesamtvariabilität oder Gesamtvariabilität . Unten sehen Sie die Kovarianzmatrix von 3 Variablen. Ihre Varianzen liegen auf der Diagonale und die Summe der 3 Werte (3.448) ist die Gesamtvariabilität.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Jetzt ersetzt PCA die ursprünglichen Variablen durch neue Variablen, die als Hauptkomponenten bezeichnet werden. Sie sind orthogonal (dh sie haben keine Kovariationen) und haben Varianzen (sogenannte Eigenwerte) in absteigender Reihenfolge. Die Kovarianzmatrix zwischen den aus den obigen Daten extrahierten Hauptkomponenten lautet also:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Beachten Sie, dass die Diagonalsumme immer noch 3,448 beträgt, was besagt, dass alle 3 Komponenten für die multivariate Variabilität verantwortlich sind. Die 1. Hauptkomponente macht 1,651 / 3,448 = 47,9% der Gesamtvariabilität aus oder "erklärt" sie; der 2. erklärt 1.220 / 3.448 = 35,4% davon; der dritte erklärt .577 / 3.448 = 16,7% davon.

Was bedeuten sie also, wenn sie sagen, dass " PCA die Varianz maximiert " oder " PCA die maximale Varianz erklärt "? Das heißt natürlich nicht, dass es die größte Varianz unter drei Werten findet 1.343730519 .619205620 1.485549631, nein. PCA findet, im Datenraum, die Dimension (Richtung) mit der größten Abweichung von der Gesamtvarianz 1.343730519+.619205620+1.485549631 = 3.448. Diese größte Varianz wäre 1.651354285. Dann wird aus der verbleibenden 3.448-1.651354285Gesamtvarianz die Dimension der zweitgrößten, orthogonal zur ersten Varianz ermittelt. Diese 2. Dimension wäre 1.220288343Varianz. Und so weiter. Die letzte verbleibende Dimension ist die .576843142Varianz. Siehe auch "Pt3" hier und die tolle Antwort hier Erklären, wie es im Detail gemacht wurde.

Mathematisch wird PCA über lineare Algebra-Funktionen ausgeführt, die als Eigenzerlegung oder Svd-Zerlegung bezeichnet werden. Diese Funktionen geben alle Eigenwerte 1.651354285 1.220288343 .576843142(und die entsprechenden Eigenvektoren) auf einmal zurück ( siehe , siehe ).

ttnphns
quelle

1

Was meinen Sie mit: "Beachten Sie, dass die Diagonalsumme immer noch 3,448 ist, was besagt, dass alle 3 Komponenten die multivariate Variabilität ausmachen" und was ist der Unterschied zwischen Ihrer Methode und PoV (Anteil der Variation)?

Kamaci

2

Ich schlage keine "Methode" vor. Ich habe gerade erklärt, dass alle PCs die gleiche Variabilität aufweisen wie die ursprünglichen Variablen.

TTNPHNS

Können Sie meine Frage überprüfen: stats.stackexchange.com/questions/44464/…

Kamaci

Es tut mir leid :-( Ich kann derzeit nicht. Es gibt zu viele Kommentare zum

Einstellen

1

Wenn Sie nur die Frage lesen, ist es genug. Es gibt nichts an Kommentaren.

Kamaci

11

@ttnphns hat eine gute Antwort geliefert, vielleicht kann ich ein paar Punkte hinzufügen. Zunächst möchte ich darauf hinweisen, dass es im Lebenslauf eine relevante Frage gab , die eine wirklich überzeugende Antwort enthält - Sie möchten sie auf jeden Fall prüfen. Im Folgenden beziehe ich mich auf die in dieser Antwort gezeigten Handlungen.

Alle drei Diagramme zeigen dieselben Daten an. Beachten Sie, dass die Daten sowohl vertikal als auch horizontal variabel sind. Wir können uns jedoch vorstellen, dass der größte Teil der Variabilität tatsächlich diagonal ist . In der dritten Darstellung ist diese lange schwarze diagonale Linie der erste Eigenvektor (oder die erste Hauptkomponente) und die Länge dieser Hauptkomponente (die Streuung der Daten entlang dieser Linie - nicht tatsächlich die Länge der Linie selbst, die ist nur auf dem Plot gezeichnet) ist der erste Eigenwert--es ist der Betrag der Varianz, der von der ersten Hauptkomponente berücksichtigt wird. Wenn Sie diese Länge mit der Länge der zweiten Hauptkomponente (dh der Breite der orthogonal von dieser diagonalen Linie ausgehenden Streuung der Daten) summieren und dann einen der Eigenwerte durch diese Summe dividieren, erhalten Sie den Prozentsatz der Varianz, die auf die entsprechende Hauptkomponente entfällt.

Um andererseits den Prozentsatz der Varianz zu verstehen, die in der Regression berücksichtigt wird, können Sie sich das obere Diagramm ansehen. In diesem Fall ist die rote Linie die Regressionslinie oder die Menge der vorhergesagten Werte aus dem Modell. Die erläuterte Varianz kann als das Verhältnis der vertikalen Streuung der Regressionslinie (dh vom niedrigsten Punkt der Linie zum höchsten Punkt der Linie) zur vertikalen Streuung der Daten (dh vom niedrigsten Datenpunkt) verstanden werden zum höchsten Datenpunkt). Das ist natürlich nur eine lose Idee, denn das sind buchstäblich Bereiche, keine Abweichungen, aber das sollte Ihnen helfen, den Punkt zu verstehen.

Lesen Sie unbedingt die Frage. Und obwohl ich mich auf die Top-Antwort bezog, sind einige der gegebenen Antworten ausgezeichnet. Es ist Ihre Zeit wert, sie alle zu lesen.

gung
quelle

3

Es gibt eine sehr einfache, direkte und präzise mathematische Antwort auf die ursprüngliche Frage.

$Y_1$ $Y_2$ $\dots$ $Y_p$ $R_i^2$

$a_1$ $a_2$ $\dots$ $a_p$ $PC_1 = a_1Y_1 + a_2Y_2 + \cdots + a_pY_p$ $\sum_{i=1}^p R_i^2(Y_i | PC_1)$

In diesem Sinne können Sie den ersten PC als Maximierer der "erklärten Varianz" oder genauer als Maximierer der "erklärten Gesamtvarianz" interpretieren.

$b_i = c\times a_i$ $c \neq 0$

Verweise auf Originalliteratur und Erweiterungen finden Sie unter

Westfall, PH, Arias, AL und Fulton, LV (2017). Lehren von Hauptkomponenten unter Verwendung von Korrelationen, Multivariate Verhaltensforschung, 52, 648-660.

Peter Westfall
quelle

0

$Y=A+B$ $Y$ $A$ $B$ $Y$ $A$ $B$ $Y$ $A$ $B$ $var(Y) = var(A) + var (B) + 2cov(A,B)$ $A$ $b_0+b_1X$ $B$ $e$ $Y=b_0+b_1X+e$ $Y$ $b_0+b_1X$

$Y$

Jung
quelle

Sie sollten Ihre Formel auf Varianz von Y überprüfen: Es ist nicht korrekt. Noch wichtiger ist jedoch, dass der Versuch einer Regressionserklärung weder die PCA noch die Art und Weise, wie Menschen darüber nachdenken und sie verwenden, richtig charakterisiert.

whuber

1

Ty, Fehler in der Formel behoben. Meine Antwort bezieht sich auf den zweiten Teil der Frage bezüglich des durch die Regressionsgerade erklärten Varianzanteils.

Junge

PCA und Varianzanteil erklärt

Antworten: