Was ist der Punkt der Singularwertzerlegung?

9

Ich verstehe nicht, warum die Reduzierung der Dimension wichtig ist. Was ist der Vorteil, wenn einige Daten erfasst und ihre Dimension reduziert werden?

whuber
quelle
3
Der Ton der Frage lädt nicht zu konstruktiven Antworten ein. Bitte überlegen Sie, Ihre Frage neu zu formulieren.
Sasha
2
Der Punkt kann darin bestehen, das zum Speichern bestimmter Informationen erforderliche Datenvolumen zu reduzieren, da ein geringfügiger Genauigkeitsverlust (z. B. JPEG-Bildkomprimierung) erforderlich ist.
Sasha
2
Vielen Dank für Ihre Kommentare, @Sasha. Es ist eine vernünftige Frage, deshalb habe ich eine geringfügige Änderung vorgenommen, um den Eindruck von Stumpfheit (sicherlich unbeabsichtigt) zu vermeiden, der durch den ursprünglichen Wortlaut vermittelt wird.
whuber
Siehe stats.stackexchange.com/questions/177102/... für ein Beispiel!
kjetil b halvorsen
Sie machen SVD für die Themenmodellierung, die NICHT probabilistisch ist. Verwenden Sie für eine probabilistische Themenmodellierung LDA. Wenn Sie KEINE Themenmodellierung durchführen, verwenden Sie PCA.
Brad

Antworten:

18

Die Singularwertzerlegung (SVD) ist nicht gleichbedeutend mit der Verringerung der Dimensionalität der Daten. Es ist eine Methode, eine Matrix in andere Matrizen zu zerlegen, die viele wunderbare Eigenschaften hat, auf die ich hier nicht näher eingehen werde. Weitere Informationen zu SVD finden Sie auf der Wikipedia-Seite .

Das Reduzieren der Dimensionalität Ihrer Daten ist manchmal sehr nützlich. Es kann sein, dass Sie viel mehr Variablen als Beobachtungen haben; Dies ist in der genomischen Arbeit nicht ungewöhnlich. Es kann sein, dass wir mehrere Variablen haben, die sehr stark korreliert sind, z. B. wenn sie stark von einer kleinen Anzahl zugrunde liegender Faktoren beeinflusst werden, und wir möchten eine gewisse Annäherung an die zugrunde liegenden Faktoren wiederherstellen. Dimensionalitätsreduzierende Techniken wie Hauptkomponentenanalyse, mehrdimensionale Skalierung und kanonische Variablenanalyse geben uns Einblicke in die Beziehungen zwischen Beobachtungen und / oder Variablen, die wir möglicherweise nicht auf andere Weise erhalten können.

Ein konkretes Beispiel: Vor einigen Jahren habe ich eine Umfrage zur Mitarbeiterzufriedenheit analysiert, die über 100 Fragen enthielt. Nun, kein Manager wird jemals in der Lage sein, mehr als 100 Fragen im Wert von Antworten zu betrachten, sogar zusammengefasst, und mehr als nur zu erraten, was das alles bedeutet, denn wer kann sagen, wie die Antworten zusammenhängen und was sie wirklich antreibt ? Ich führte eine Faktorenanalyse der Daten durch, für die ich über 10.000 Beobachtungen hatte, und fand fünf sehr klare und leicht interpretierbare Faktoren, mit denen managerspezifische Bewertungen (eine für jeden Faktor) entwickelt werden konnten, die die Gesamtheit der Daten zusammenfassen die 100+ Fragen Umfrage. Eine viel bessere Lösung als der Excel-Tabellenauszug, mit dem die Ergebnisse zuvor gemeldet wurden!

jbowman
quelle
Eine Methode namens "Thin SVD" wird zur Reduzierung der Dimensionalität verwendet. Siehe Wikipedia auf SVD.
Cyborg
5

In Bezug auf Ihren zweiten Punkt der Frage können die Vorteile der Dimensionsreduzierung für einen Datensatz sein:

  • Reduzieren Sie den benötigten Speicherplatz
  • Beschleunigen Sie die Berechnung (z. B. bei Algorithmen für maschinelles Lernen). Weniger Dimensionen bedeuten weniger Rechenaufwand. Außerdem können weniger Dimensionen die Verwendung von Algorithmen ermöglichen, die für eine große Anzahl von Dimensionen ungeeignet sind
  • Entfernen Sie redundante Funktionen, z. B. macht es keinen Sinn, die Größe eines Geländes sowohl in Quadratmetern als auch in Quadratmeilen zu speichern (möglicherweise war die Datenerfassung fehlerhaft).
  • Wenn wir die Dimension einer Daten auf 2D oder 3D reduzieren, können wir sie möglicherweise zeichnen und visualisieren, möglicherweise Muster beobachten und Einblicke gewinnen

Abgesehen von PCA haben SVDs viele Anwendungen in der Signalverarbeitung, NLP und vielen mehr

Clyfe
quelle
2

Schauen Sie sich meine Antwort an. Die Singularwertzerlegung ist eine Schlüsselkomponente der Hauptkomponentenanalyse , die eine sehr nützliche und sehr leistungsfähige Datenanalysetechnik darstellt.

Es wird häufig in Gesichtserkennungsalgorithmen verwendet, und ich verwende es häufig in meiner täglichen Arbeit als Hedgefonds-Analyst.

Chris Taylor
quelle
1
Sind SVD und PCA (während verwandt) nicht unterschiedliche Verfahren?
B_Miner
2
Du hast recht. SVD ist eine Methode, um eine Lösung für das PCA-Problem zu erhalten.
Bayerj
1
@B_Miner Ja - deshalb habe ich gesagt, dass svd eine Schlüsselkomponente von pca ist. Ich habe mich auf pca konzentriert, weil die Frage die Dimensionsreduzierung betrifft (für welche pca geeignet ist und für welche nicht)
Chris Taylor
Vielleicht war die Wortwahl der Komponente das, was @B_Miner vorübergehend abschaltete. :)
Kardinal