Bedeutung von "Rekonstruktionsfehler" in PCA und LDA

Ich implementiere PCA, LDA und Naive Bayes für die Komprimierung bzw. Klassifizierung (Implementierung einer LDA für die Komprimierung und Klassifizierung).

Ich habe den Code geschrieben und alles funktioniert. Was ich für den Bericht wissen muss, ist die allgemeine Definition des Rekonstruktionsfehlers .

Ich kann viel Mathematik finden und in der Literatur verwenden ... aber was ich wirklich brauche, ist eine Vogelperspektive / einfache Wortdefinition, damit ich sie an den Bericht anpassen kann.

machine-learning pca terminology dimensionality-reduction discriminant-analysis Donlan
quelle

Rekonstruktionsfehler ist das Konzept, das (aus Ihrer Liste) nur für PCA gilt, nicht für LDA oder naive Bayes. Fragen Sie sich, was Rekonstruktionsfehler in PCA bedeuten, oder möchten Sie eine "allgemeine Definition", die auch für LDA und naive Bayes gilt?

Amöbe

Kennst du beides Der Bericht bezieht sowohl PCA als auch LDA in Bezug auf die Komprimierung von Daten ein, daher muss ich eine Antwort sowohl für PCA als auch für LDA haben ... aber nicht unbedingt NB. Also, vielleicht die detaillierte pca-spezifische Version ... und die allgemeine Idee, damit ich sie so gut wie möglich auf LDA anwenden kann. Dann hätte ich genug Wissen, um effektiver auf Google zu suchen, wenn ich auf

Stolpersteine stoße

Diese Frage könnte besser geschlossen werden, da sie general definition of reconstruction errorschwer fassbar ist.

ttnphns

@ttnphns, ich denke nicht, dass es zu breit ist. Ich denke, die Frage kann wie folgt umformuliert werden: "Können wir den PCA-Begriff des Rekonstruktionsfehlers auf die LDA anwenden?" und ich denke, es ist eine interessante und themenbezogene Frage (+1). Ich werde versuchen, selbst eine Antwort zu schreiben, wenn ich Zeit finde.

Amöbe

@amoeba, in der von dir vorgeschlagenen Formulierung erhält die Frage tatsächlich Licht. Ja, es ist dann möglich, eine Antwort zu schreiben (und ich kann erwarten, dass Ihre gut sein wird). Eine schwierige Sache bei "Was wird in LDA rekonstruiert" ist die Frage, was als DVs betrachtet wird und welche IVs in LDA.

ttnphns

Antworten:

Für PCA projizieren Sie Ihre Daten auf eine Teilmenge Ihres Eingabebereichs. Grundsätzlich gilt alles für dieses Bild oben: Sie projizieren Daten mit maximaler Varianz auf den Unterraum. Wenn Sie Ihre Daten aus der Projektion rekonstruieren, erhalten Sie die roten Punkte, und der Rekonstruktionsfehler ist die Summe der Abstände von blauen zu roten Punkten: Er entspricht in der Tat dem Fehler, den Sie beim Projizieren Ihrer Daten auf das Grün gemacht haben Linie. Es kann natürlich in jeder Dimension verallgemeinert werden!

Wie in den Kommentaren erwähnt, scheint es für LDA nicht so einfach zu sein, und ich kann im Internet keine richtige Definition finden. Es tut uns leid.

Vince.Bdn
quelle

Der LDA-Fall ist schwieriger. Was würden Sie bei zweidimensionalen Projektionen tun? In PCA sind zwei Hauptachsen orthogonal und bilden eine 2D-Ebene, so dass natürlich die gleiche Idee eines Rekonstruktionsfehlers gilt. In LDA sind zwei Diskriminanzachsen jedoch nicht orthogonal. Wie genau schlagen Sie dann vor, den Rekonstruktionsfehler zu definieren?

Amöbe

Ich habe zwei Anmerkungen zur Antwort. 1) Wollen Sie damit sagen, dass Ihr Bild 1 den wahren PC1 zeigt? 2) Für LDA und das 2. Bild können Sie Diskriminanten als Achsen im ursprünglichen Raum zeichnen und Datenpunktreste als "Rekonstruktionsfehler" bezeichnen. Aber es ist eine lose terminologische Praxis. Was rekonstruieren Diskriminanten? Fügen Sie hier auch hinzu, was Amöben über axiale Nichtorthogonalität gesagt haben (siehe hier ).

ttnphns

1) Es ist ein Bild aus einer Google-Suche, das Fehler zeigt, aber in der Tat wäre der PC viel vertikaler, ich werde versuchen, einen besseren zu finden und zu aktualisieren.

Vince.Bdn

2) Ich habe meinen Beitrag bearbeitet. Ich neige dazu, die Diskriminanten als Achsen im ursprünglichen Raum zu sehen, zwar aus geometrischer Sicht, aber wie bereits erwähnt, gibt es keine Orthogonalität. Mein Fehler ...

Vince.Bdn

Vince, es ist deine Entscheidung. Aber was mich betrifft, an meiner Stelle sollte ich auch das zweite Bild in der Antwort belassen. Sie haben sich nicht geirrt und Ihre Ansicht ist möglich. Das Problem ist jedoch bei LDA komplexer. Kommentare waren nur zu betonen , dass .

ttnphns

Die allgemeine Definition des Rekonstruktionsfehlers wäre der Abstand zwischen dem ursprünglichen Datenpunkt und seiner Projektion auf einen unterdimensionalen Unterraum (seine "Schätzung").

Quelle: Spezialisierung Mathematik des maschinellen Lernens am Imperial College London

Serim Hande Tarcan
quelle

$R^2$

Berechnung

$X$ $f$

$R^2$ $i^{th}$

$R^2_i = 1 - \frac{\sum_{j=1}^n (X_{j,i} - f_{j,i})^2}{\sum_{j=1}^n X_{j,i}^2}$

$R^2 = 1.0$ $R^2$

$i^{th}$

$\text{RMSE}_i = \sqrt{\overline{(X_i - f_i)^2}}$

$N$

$\text{NRMSE}_i = \frac{\text{RMSE}_i}{N_i} = \sqrt{\frac{\overline{(X_i - f_i)^2}}{\overline{X_i^2}}}$

Berechnung

Wenn Sie Python verwenden, können Sie diese wie folgt berechnen:

from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from math import sqrt
import numpy as np

r2 = r2_score(X, f)
rmse = sqrt(mean_squared_error(X, f))

# RMSE normalised by mean:
nrmse = rmse/sqrt(np.mean(X**2))

Wo Xsind die Originaldaten und fsind die komprimierten Daten.

Visualisierung

$R^2$

camillejr
quelle