Hauptkomponentenanalyse Beseitigen Sie Rauschen in den Daten

11

Beseitigt die Hauptkomponentenanalyse (PCA) das Rauschen im Datensatz? Wenn PCA das Rauschen im Datensatz nicht beseitigt, was macht PCA dann tatsächlich mit dem Datensatz? Kann mir jemand in dieser Angelegenheit helfen?

bbadyalina
quelle
1
Nein, es beseitigt kein "Rauschen" (in dem Sinne, dass verrauschte Daten verrauscht bleiben). PCA ist nur eine Transformation von Daten. Jede PCA-Komponente repräsentiert eine lineare Kombination von Prädiktoren. Und die PCAs können nach ihrem Eigenwert geordnet werden: Im weiteren Sinne wird die Varianz umso mehr abgedeckt, je größer der Eigenwert ist. Eine verlustfreie Transformation wäre daher, wenn Sie so viele PCs wie Dimensionen haben. Wenn Sie nur einige PCs mit großem Ev betrachten, vernachlässigen Sie Komponenten, die die Varianz in den Daten nur wenig erhöhen (dies ist jedoch kein "Rauschen").
Drey
2
Wie @Drey bereits bemerkt hat, müssen Komponenten mit geringer Varianz kein Rauschen sein. Sie könnten auch Rauschen als Komponente mit hoher Varianz haben.
Richard Hardy
Vielen Dank. Eigentlich habe ich getan, was @Drey in seinem Kommentar erwähnt hat, und ich eliminiere PCs mit kleinen Ev, die ich vorher für Rauschen im Datensatz gehalten habe. Wenn ich also weiterhin die PCs mit kleinem Ev eliminieren möchte und sie als Eingabe für das Regressionsmodell verwenden möchte, verbessert dies die Leistung des Regressionsmodells. Kann ich sagen, dass PCA es einfach gemacht hat, die Daten zu interpretieren und die Vorhersage genauer zu machen?
Badyalina
@Richard Hardy Wenn PCA kein Rauschen aus den Daten entfernt, wie verbessert die lineare Transformation den Datensatz? Ich bin irgendwie verwirrt darüber, weil viele Forscher PCA-Hybride mit Zeitreihenmodellen verwenden, die die Leistung der Vorhersage im Vergleich zu herkömmlichen Zeitreihenmodellen verbessern. Danke für Ihre Antwort.
Badyalina
Weder sind die Daten "einfach" (es handelt sich um eine lineare Kombination von Merkmalen), noch sind sie leicht zu interpretieren (Interpretation der Koeffizienten im Regressionsmodell). Aber Ihre Vorhersagen können genauer werden. Darüber hinaus kann Ihr Modell gut verallgemeinern.
Drey

Antworten:

15

Die Hauptkomponentenanalyse (PCA) wird verwendet, um a) zu entrauschen und b) die Dimensionalität zu verringern.

Es beseitigt kein Rauschen, kann jedoch das Rauschen reduzieren.

Grundsätzlich wird eine orthogonale lineare Transformation verwendet, um eine Projektion aller Daten in k Dimensionen zu finden, während diese k Dimensionen diejenigen mit der höchsten Varianz sind. Die Eigenvektoren der Kovarianzmatrix (des Datensatzes) sind die Zieldimensionen und können gemäß ihren Eigenwerten eingestuft werden. Ein hoher Eigenwert bedeutet eine hohe Varianz, die durch die zugehörige Eigenvektordimension erklärt wird.

Werfen wir einen Blick auf den Usps- Datensatz, der durch Scannen handschriftlicher Ziffern aus Umschlägen des US-Postdienstes erhalten wurde.

Zuerst berechnen wir die Eigenvektoren und Eigenwerte der Kovarianzmatrix und zeichnen alle absteigenden Eigenwerte auf. Wir können sehen, dass es einige Eigenwerte gibt, die als Hauptkomponenten bezeichnet werden könnten, da ihre Eigenwerte viel höher sind als die der übrigen.

Oben: Alle Eigenwerte der Kovarianzmatrix des Usps-Datensatzes, absteigend sortiert nach unten: Top25-Eigenwerte

Jeder Eigenvektor ist eine lineare Kombination der ursprünglichen Dimensionen . Daher ist der Eigenvektor (in diesem Fall) ein Bild selbst, das aufgezeichnet werden kann.

Eigenvektor mit 5 höchsten Eigenwerten

Für b) Dimensionsreduktion könnten wir nun die obersten fünf Eigenvektoren verwenden und alle Daten (ursprünglich ein 16 * 16-Pixel-Bild) in einen 5-dimensionalen Raum mit geringstmöglichem Varianzverlust projizieren.

(Hinweis hier: In einigen Fällen ist eine nichtlineare Dimensionsreduzierung (z. B. LLE) möglicherweise besser als eine PCA. Beispiele finden Sie in Wikipedia. )

Schließlich können wir PCA zum Entrauschen verwenden. Daher können wir dem ursprünglichen Datensatz in drei Ebenen (niedrig, hoch, Ausreißer) zusätzliches Rauschen hinzufügen, um die Leistung vergleichen zu können. Für diesen Fall habe ich Gaußsches Rauschen mit dem Mittelwert Null und der Varianz als Vielfaches der ursprünglichen Varianz verwendet (Faktor 1 (niedrig), Faktor 2 (hoch), Faktor 20 (Ausreißer)). Ein mögliches Ergebnis sieht so aus. In jedem Fall muss jedoch der Parameter k eingestellt werden, um ein gutes Ergebnis zu erzielen. Geben Sie hier die Bildbeschreibung ein

Schließlich besteht eine andere Perspektive darin, die Eigenwerte der stark verrauschten Daten mit den Originaldaten zu vergleichen (vergleiche mit dem ersten Bild dieser Antwort). Sie können sehen, dass das Rauschen alle Eigenwerte beeinflusst. Wenn Sie also nur die 25 besten Eigenwerte zum Entrauschen verwenden, wird der Einfluss des Rauschens verringert.

Geben Sie hier die Bildbeschreibung ein

Nikolas Rieble
quelle
Dies sind nur Zahlen, die Sie versucht haben, SNR für sie zu finden
Boris
Nein, ich habe diese Zahlen nur verwendet, um den Zusammenhang zwischen Rauschunterdrückung und PCA für einen Beispieldatensatz zu veranschaulichen. Sie können gerne eine Antwort schreiben, die eine neue Perspektive hinzufügt.
Nikolas Rieble
Hallo Nikolas, deine Antwort ist großartig, +1. Ich habe gerade eine Frage zum Austausch von Mathe-Stapeln gestellt. Ich habe mich gefragt, ob Sie bei der Beantwortung helfen können. Hauptsächlich bin ich verwirrt darüber, warum sich herausstellt, dass die Eigenvektoren der Kovarianzmatrix des ursprünglichen Datensatzes die Richtungen mit der höchsten Varianz sind, und daher möchten wir auf sie projizieren ... hier verknüpfe ich die Frage: Mathematik. stackexchange.com/questions/3213775/… Danke!
Zlatan943