Verwenden Sie den Pearson-Korrelationskoeffizienten als Optimierungsziel beim maschinellen Lernen

11

Beim maschinellen Lernen (für Regressionsprobleme) sehe ich häufig, dass der mittlere quadratische Fehler (MSE) oder der mittlere absolute Fehler (MAE) als Fehlerfunktion zum Minimieren verwendet werden (plus Regularisierungsterm). Ich frage mich, ob es Situationen gibt, in denen die Verwendung des Korrelationskoeffizienten angemessener wäre. Wenn eine solche Situation vorliegt, dann:

  1. In welchen Situationen ist der Korrelationskoeffizient eine bessere Metrik als MSE / MAE?
  2. Ist MSE / MAE in diesen Situationen immer noch eine gute Proxy-Kostenfunktion?
  3. Ist die Maximierung des Korrelationskoeffizienten direkt möglich? Ist dies eine stabile Zielfunktion?

Ich konnte keine Fälle finden, in denen der Korrelationskoeffizient direkt als Zielfunktion bei der Optimierung verwendet wird. Ich würde mich freuen, wenn Leute mich auf Informationen in diesem Bereich hinweisen können.

Aha
quelle

Antworten:

6

Das Maximieren der Korrelation ist nützlich, wenn die Ausgabe stark verrauscht ist. Mit anderen Worten ist die Beziehung zwischen Ein- und Ausgängen sehr schwach. In einem solchen Fall neigt das Minimieren von MSE dazu, die Ausgabe nahe Null zu machen, so dass der Prädikationsfehler der Varianz der Trainingsausgabe entspricht.

Die direkte Verwendung der Korrelation als Zielfunktion ist für den Gradientenabstiegsansatz möglich (ändern Sie ihn einfach in Minimierung der Minuskorrelation). Ich weiß jedoch nicht, wie ich es mit dem SGD-Ansatz optimieren soll, da die Kostenfunktion und der Gradient die Ergebnisse aller Trainingsmuster beinhalten.

Eine andere Möglichkeit, die Korrelation zu maximieren, besteht darin, die MSE zu minimieren, indem die Ausgangsvarianz so eingeschränkt wird, dass sie der Trainingsausgangsvarianz entspricht. Die Einschränkung betrifft jedoch auch alle Ausgaben, sodass es (meiner Meinung nach) keine Möglichkeit gibt, den SGD-Optimierer zu nutzen.

BEARBEITEN: Wenn die oberste Schicht des neuronalen Netzwerks eine lineare Ausgangsschicht ist, können wir die MSE minimieren und dann die Gewichte und die Vorspannung in der linearen Schicht anpassen, um die Korrelation zu maximieren. Die Anpassung kann ähnlich wie bei CCA erfolgen ( https://en.wikipedia.org/wiki/Canonical_analysis ).

Bo Tian
quelle
0

Wir verwenden Pearsons Korrelation in unserer Forschung und sie funktioniert gut. In unserem Fall ist es ziemlich stabil. Da es sich um ein translatorisches und skalierungsinvariantes Maß handelt, ist es nur nützlich, wenn Sie die Form vorhersagen möchten, nicht genaue Werte. Daher ist es hilfreich, wenn Sie nicht wissen, ob sich Ihr Ziel im Lösungsbereich Ihres Modells befindet und Sie nur an der Form interessiert sind. Im Gegenteil, MSE reduziert den gemittelten Abstand zwischen der Vorhersage und den Zielen, sodass versucht wird, die Daten so weit wie möglich anzupassen. Dies ist wahrscheinlich der Grund, warum MSE häufiger verwendet wird, da Sie normalerweise daran interessiert sind, genaue Werte vorherzusagen. Wenn Sie die MSE minimieren, erhöht sich die Korrelation.

HCRuiz
quelle