Was führt dazu, dass ein Modell eine niedrige Lernrate erfordert?

Gradient Descent ist eine Methode, um den optimalen Parameter der Hypothese zu finden oder die Kostenfunktion zu minimieren.

wobei Alpha die Lernrate ist

Wenn die Lernrate hoch ist, kann sie das Minimum überschreiten und die Kostenfunktion nicht minimieren.

führen daher zu einem höheren Verlust.

Da der Gradientenabstieg nur ein lokales Minimum finden kann, kann die niedrigere Lernrate zu einer schlechten Leistung führen. Um dies zu tun, ist es besser, mit dem Zufallswert des Hyperparameters zu beginnen, der die Trainingszeit des Modells verlängern kann. Es gibt jedoch fortgeschrittene Methoden wie den adaptiven Gradientenabstieg, mit denen die Trainingszeit verwaltet werden kann.

Es gibt viele Optimierer für dieselbe Aufgabe, aber kein Optimierer ist perfekt. Es hängt von einigen Faktoren ab

Größe der Trainingsdaten: Mit zunehmender Größe der Trainingsdaten steigt die Trainingszeit für das Modell. Wenn Sie weniger Zeit für das Trainingsmodell benötigen, können Sie eine höhere Lernrate wählen, die jedoch zu einer schlechten Leistung führen kann.
Der Optimierer (Gradientenabstieg) wird langsamer, wenn der Gradient klein ist, dann ist es besser, mit einer höheren Lernrate zu arbeiten.

PS. Es ist immer besser, verschiedene Runden mit Gefälle zu fahren

Posi2
quelle

Dies ist ein guter Anfang, da es den Unterschied zwischen niedrigen und hohen Lernraten im Allgemeinen zeigt. Sie müssen auch erklären, warum die gute Lernrate je nach Aufgabe variiert - und das OP fragte speziell, warum einige Probleme eine niedrigere Lernrate erfordern als andere

Neil Slater

Das ist ein guter Punkt. Ich habe es bearbeitet. Da es kein spezifisches Problem gibt, gehe ich von einem allgemeinen aus.

Posi2

Ich denke immer noch, dass dies die Frage nicht beantwortet. Das OP fragt nicht nach dem Optimierer oder den Daten, sondern nach dem Modell. Wie wirkt sich das Modell (seine Architektur, Anzahl der Parameter usw.) auf die Lernrate aus? Ich denke, das ist die eigentliche Frage, die Sie nicht beantworten. Alles andere ist für die Frage ziemlich irrelevant und wird nur Leser verwirren, die nicht zwischen diesen Konzepten unterscheiden können.

nbro

Danke für die Rückmeldung. Unabhängig von der Modellarchitektur, da die Anzahl der Parameter, die Datengröße und der Datenbereich (normalisierte Daten zur Verwendung der Lösung) zu einer höheren Trainingszeit führen, sollten wir dementsprechend die Lernrate ändern. Dies gilt für das Modell wie lineare Regression, logistische Regression, SVM usw., da sie GD zur Optimierung verwenden. Jede Antwort ist immer willkommen :)

Posi2

Gibt es einen Beweis, der Ihre Behauptung "unabhängig von der Modellarchitektur" bewertet? Diese Antwort beantwortet die OP-Frage immer noch nicht. Sie beantworten die Frage "Wie ändert sich die Lernrate im Allgemeinen in Abhängigkeit von der Einstellung für maschinelles Lernen?" (Und Ihre Antwort ist natürlich nicht erschöpfend, da nicht erwähnt wird, "wie sich die Lernrate je nach Modell ändert." ", dh die eigentliche Frage).

nbro

Was führt dazu, dass ein Modell eine niedrige Lernrate erfordert?

Antworten: