Was führt dazu, dass ein Modell eine niedrige Lernrate erfordert?

8

Ich habe eine Weile darüber nachgedacht, ohne eine Intuition für die Mathematik zu entwickeln, die dahinter steckt.

Was führt dazu, dass ein Modell eine niedrige Lernrate benötigt?

JohnAllen
quelle
Ich habe mich auch darüber gewundert und bin gespannt, warum RNNs eine geringere Lernrate haben als CNNs. Soweit ich weiß, erfordern Modellkomplexität (Tiefe) und / oder große Datenmengen einen feineren Hyperparameter für den lr.
Justin

Antworten:

4

Gradient Descent ist eine Methode, um den optimalen Parameter der Hypothese zu finden oder die Kostenfunktion zu minimieren.

Formel wobei Alpha die Lernrate ist

Wenn die Lernrate hoch ist, kann sie das Minimum überschreiten und die Kostenfunktion nicht minimieren. Geben Sie hier die Bildbeschreibung ein

führen daher zu einem höheren Verlust.

Geben Sie hier die Bildbeschreibung ein

Da der Gradientenabstieg nur ein lokales Minimum finden kann, kann die niedrigere Lernrate zu einer schlechten Leistung führen. Um dies zu tun, ist es besser, mit dem Zufallswert des Hyperparameters zu beginnen, der die Trainingszeit des Modells verlängern kann. Es gibt jedoch fortgeschrittene Methoden wie den adaptiven Gradientenabstieg, mit denen die Trainingszeit verwaltet werden kann.

Es gibt viele Optimierer für dieselbe Aufgabe, aber kein Optimierer ist perfekt. Es hängt von einigen Faktoren ab

  1. Größe der Trainingsdaten: Mit zunehmender Größe der Trainingsdaten steigt die Trainingszeit für das Modell. Wenn Sie weniger Zeit für das Trainingsmodell benötigen, können Sie eine höhere Lernrate wählen, die jedoch zu einer schlechten Leistung führen kann.
  2. Der Optimierer (Gradientenabstieg) wird langsamer, wenn der Gradient klein ist, dann ist es besser, mit einer höheren Lernrate zu arbeiten.

PS. Es ist immer besser, verschiedene Runden mit Gefälle zu fahren

Posi2
quelle
4
Dies ist ein guter Anfang, da es den Unterschied zwischen niedrigen und hohen Lernraten im Allgemeinen zeigt. Sie müssen auch erklären, warum die gute Lernrate je nach Aufgabe variiert - und das OP fragte speziell, warum einige Probleme eine niedrigere Lernrate erfordern als andere
Neil Slater
1
Das ist ein guter Punkt. Ich habe es bearbeitet. Da es kein spezifisches Problem gibt, gehe ich von einem allgemeinen aus.
Posi2
1
Ich denke immer noch, dass dies die Frage nicht beantwortet. Das OP fragt nicht nach dem Optimierer oder den Daten, sondern nach dem Modell. Wie wirkt sich das Modell (seine Architektur, Anzahl der Parameter usw.) auf die Lernrate aus? Ich denke, das ist die eigentliche Frage, die Sie nicht beantworten. Alles andere ist für die Frage ziemlich irrelevant und wird nur Leser verwirren, die nicht zwischen diesen Konzepten unterscheiden können.
nbro
Danke für die Rückmeldung. Unabhängig von der Modellarchitektur, da die Anzahl der Parameter, die Datengröße und der Datenbereich (normalisierte Daten zur Verwendung der Lösung) zu einer höheren Trainingszeit führen, sollten wir dementsprechend die Lernrate ändern. Dies gilt für das Modell wie lineare Regression, logistische Regression, SVM usw., da sie GD zur Optimierung verwenden. Jede Antwort ist immer willkommen :)
Posi2
Gibt es einen Beweis, der Ihre Behauptung "unabhängig von der Modellarchitektur" bewertet? Diese Antwort beantwortet die OP-Frage immer noch nicht. Sie beantworten die Frage "Wie ändert sich die Lernrate im Allgemeinen in Abhängigkeit von der Einstellung für maschinelles Lernen?" (Und Ihre Antwort ist natürlich nicht erschöpfend, da nicht erwähnt wird, "wie sich die Lernrate je nach Modell ändert." ", dh die eigentliche Frage).
nbro