Nicht orthogonale Technik analog zu PCA

9

Angenommen, ich habe einen 2D-Punktdatensatz und möchte die Richtungen aller lokalen Varianzmaxima in den Daten ermitteln, zum Beispiel:

Geben Sie hier die Bildbeschreibung ein

PCA hilft in dieser Situation nicht, da es sich um eine orthogonale Zerlegung handelt und daher nicht beide Linien erkennen kann, die ich blau angezeigt habe. Stattdessen kann die Ausgabe wie die durch grüne Linien dargestellte aussehen.

Bitte empfehlen Sie jede Technik, die für diesen Zweck geeignet sein könnte. Vielen Dank.

Ahmed
quelle
Könnten Sie Ihren Beispieldatensatz zur Verfügung stellen? Ich würde gerne etwas für dich ausprobieren. Grüße, Eric
Eric Melse

Antworten:

10

Die unabhängige Komponentenanalyse sollte Ihnen eine gute Lösung bieten können. Es ist in der Lage, nicht orthogonale Komponenten (wie in Ihrem Fall) zu zerlegen, indem angenommen wird, dass Ihre Messungen aus einer Mischung statistisch unabhängiger Variablen resultieren.

Es gibt viele gute Tutorials im Internet und einige frei verfügbare Implementierungen zum Ausprobieren (zum Beispiel in Scikit oder MDP ).

Wann funktioniert ICA nicht?

Wie andere Algorithmen ist ICA optimal, wenn die Annahmen gelten, für die es abgeleitet wurde. Konkret,

  1. Quellen sind statistisch unabhängig
  2. Die unabhängigen Komponenten sind nicht Gaußsch
  3. Die Mischmatrix ist invertierbar

ICA gibt eine Schätzung der Mischmatrix und der unabhängigen Komponenten zurück.

x1x2N(0,I)

p(x1,x2)=p(x1)p(x2)=12πexp(x12+x222)=12πexp||x||22

||.||R||Rx||=||x||

jpmuc
quelle
Ja, das sollte es ( scikit-learn.org/stable/auto_examples/decomposition/… ). Vielen Dank! : D
Ahmed
1
Dies könnte zu einer wirklich tiefen Antwort werden, wenn Sie mehr erzählen. Entscheiden Sie sich insbesondere dafür, den Vorschlag von @ Gottfried (PCA mit Schrägrotation) mit Ihrem Vorschlag (ICA) zu vergleichen - was sind die Unterschiede und Mängel der beiden.
ttnphns
Ich sehe, dass diese Frage teilweise beantwortet wurde. Überprüfen Sie die Bearbeitung, indem Sie ein einfaches Beispiel hinzufügen, für das ICA nicht gilt.
Jpmuc
3

Es gibt PCA-ähnliche Verfahren für den sogenannten "schrägen" Fall. In stat-Software wie SPSS (und möglicherweise auch in seinem Freeware-Klon) PSPP findet man die äquivalent als "schräge Rotationen" bezeichneten Instanzen, die als "oblimin", "promax" und etwas anderes bezeichnet werden. Wenn ich die Dinge richtig verstehe, versucht die Software, die Faktorladungen zu "rechteckigen", indem sie ihre Koordinaten in einem orthogonalen, euklidischen Raum (wie zum Beispiel in Ihrem Bild gezeigt) in Koordinaten eines Raums umrechnet, dessen Achsen möglicherweise nicht orthogonal sind Eine Technik, die aus der multiplen Regression bekannt ist. Darüber hinaus denke ich, dass dies nur iterativ funktioniert und einen oder mehrere Freiheitsgrade beim statistischen Testen des Modells verbraucht.

Vergleich PCA und Schrägrotation
Das Referenzhandbuch von SPSS (am IBM-Standort) für Schrägrotationen enthält gerade Formeln für die Berechnung.

[Update] (Upps, sorry, habe gerade überprüft, dass PSPP keine "Rotationen" vom schrägen Typ bietet)

Gottfried Helms
quelle
1
Hmm, nach einer dritten Lektüre sehe ich, dass sich Ihre Frage geringfügig von der Begründung der Schrägrotation unterscheidet: In Ihrer Datenwolke ist es nicht einmal so, dass der Mittelwert am Ursprung liegt / dass die Daten nicht einmal zentriert sind, also Sie Vielleicht haben Sie etwas anderes im Sinn, als ich hier in meiner Antwort behandelt habe. Wenn dies der Fall ist, kann ich die Antwort später löschen ...
Gottfried Helms
1
Da schräge "Rotationen" auf die PCA folgen, können sie die in der Frage dargestellte Situation nicht "sehen" und scheinen daher nicht mehr in der Lage zu sein, die beiden Komponenten zu identifizieren als PCA selbst.
whuber
2

Ich habe nicht viel Erfahrung damit, aber Vidal, Ma und Sastrys Generalized PCA wurde für ein sehr ähnliches Problem entwickelt.

Noah Stein
quelle
2

Die anderen Antworten haben bereits einige nützliche Hinweise zu Techniken gegeben, die Sie in Betracht ziehen können, aber niemand scheint darauf hingewiesen zu haben, dass Ihre Annahme falsch ist: Die blau dargestellten Linien in Ihrem schematischen Bild sind KEINE lokalen Maxima der Varianz.

wwΣwΣwλ(ww1)λ

Σwλw=0.

w

Amöbe
quelle
Hallo, ich habe nicht viel Hintergrundwissen in Mathematik. Können Sie mir eine gute Ressource empfehlen, um mehr über die oben genannten Dinge zu erfahren? Vielen Dank.
Ahmed
@Ahmed: Ich bin nicht sicher, es kommt darauf an, was du bereits weißt. Ich denke, Sie würden anständige Lehrbücher über lineare Algebra und Analyse benötigen. Dies ist ziemlich einfaches Zeug, sollte in jedem anständigen Lehrbuch behandelt werden.
Amöbe