Ich trainiere ein künstliches neuronales Netzwerk (Backpropagation, Feed-Forward) mit nicht normal verteilten Daten. Neben dem quadratischen Mittelwertfehler wird in der Literatur häufig der Pearson-Korrelationskoeffizient zur Bewertung der Qualität des trainierten Netzes vorgeschlagen. Aber ist der Pearson-Korrelationskoeffizient angemessen, wenn die Trainingsdaten nicht normal verteilt sind? Wäre es nicht vernünftiger, ein rangbasiertes Korrelationsmaß zu verwenden, z. B. Spearman Rho?
correlation
neural-networks
spearman-rho
julianisch
quelle
quelle
Antworten:
Der Pearson-Korrelationskoeffizient misst die lineare Assoziation. Da es auf empirischen zweiten zentralen Momenten basiert, wird es von Extremwerten beeinflusst. Deshalb:
Der Nachweis der Nichtlinearität in einem Streudiagramm von tatsächlichen und vorhergesagten Werten würde die Verwendung einer Alternative wie des Rangkorrelationskoeffizienten (Spearman) vorschlagen.
Wenn die Beziehung im Durchschnitt monoton aussieht (wie in der oberen Reihe der Abbildung), ist ein Rangkorrelationskoeffizient wirksam.
Andernfalls ist die Beziehung krummlinig (wie in einigen Beispielen aus der unteren Reihe der Abbildung, z. B. in der linken oder mittleren U-Form), und wahrscheinlich ist jedes Korrelationsmaß eine unzureichende Beschreibung. Die Verwendung eines Rangkorrelationskoeffizienten behebt dies nicht.
Das Vorhandensein von abgelegenen Daten im Streudiagramm zeigt an, dass der Pearson-Korrelationskoeffizient die Stärke der linearen Beziehung möglicherweise überbewertet. Es könnte richtig sein oder auch nicht; Verwenden Sie es mit der gebotenen Vorsicht. Der Rangkorrelationskoeffizient kann besser sein oder auch nicht, je nachdem, wie vertrauenswürdig die äußeren Werte sind.
(Bild aus dem Wikipedia-Artikel zum Pearson-Produkt-Moment-Korrelationskoeffizienten kopiert .)
quelle