Gibt es eine Faustregel zwischen der Tiefe eines neuronalen Netzwerks und der Lernrate? Mir ist aufgefallen, dass die Lernrate umso niedriger sein muss, je tiefer das Netzwerk ist. Wenn das richtig ist, warum ist das
Gibt es eine Faustregel zwischen der Tiefe eines neuronalen Netzwerks und der Lernrate? Mir ist aufgefallen, dass die Lernrate umso niedriger sein muss, je tiefer das Netzwerk ist. Wenn das richtig ist, warum ist das
Ich sehe oft Leute, die über 5x2-Kreuzvalidierung als Sonderfall der verschachtelten Kreuzvalidierung sprechen . Ich nehme an, die erste Zahl (hier: 5) bezieht sich auf die Anzahl der Falten in der inneren Schleife und die zweite Zahl (hier: 2) bezieht sich auf die Anzahl der Falten in der äußeren...
In François Chollets Deep Learning with Python heißt es: Infolgedessen kann das Optimieren der Konfiguration des Modells basierend auf seiner Leistung im Validierungssatz schnell zu einer Überanpassung an den Validierungssatz führen, obwohl Ihr Modell niemals direkt darauf trainiert wird. Zentral...
Ich lernte gerade die Gratregression und war etwas verwirrt über die Bestrafung komplexerer Modelle (oder die Definition eines komplexeren Modells). Soweit ich weiß, korreliert die Komplexität des Modells nicht unbedingt mit der Polynomordnung. Also: ist ein komplexeres Modell als:2 + 3 + 4 x2+ 5...
Wenn wir einen großen Datensatz haben, können wir ihn im Allgemeinen in (1) Training, (2) Validierung und (3) Test aufteilen. Wir verwenden die Validierung, um die besten Hyperparameter bei der Kreuzvalidierung zu identifizieren (z. B. C in SVM), und trainieren dann das Modell unter Verwendung der...
Ich bin ziemlich neu im maschinellen Lernen und in der Statistik, aber ich habe mich gefragt, warum die Bayes'sche Optimierung beim Lernen von maschinellem Lernen zur Optimierung Ihrer Algorithmus-Hyperparameter nicht häufiger online verwendet wird. Verwenden Sie beispielsweise ein Framework wie...
Ich bin ein bisschen beunruhigt und verwirrt über die Idee, wie die Technik des frühen Stoppens definiert wird. Wenn Sie sich Wikipedia ansehen , ist es wie folgt definiert: Teilen Sie die Trainingsdaten in einen Trainingssatz und einen Validierungssatz auf, z. B. im Verhältnis 2 zu 1. Trainieren...
Ist es möglich, mit dem GPML-Code eine ungefähre vollständige Bayes'sche (1) Auswahl von Hyperparametern (z. B. Kovarianzskala) durchzuführen, anstatt die Grenzwahrscheinlichkeit zu maximieren (2)? Ich denke, die Verwendung von MCMC-Methoden zur Lösung der Integrale mit Hyperparametern sollte zu...
Ich bin mir der Vorteile der k-fachen (und ausgelassenen) Kreuzvalidierung sowie der Vorteile der Aufteilung Ihres Trainingssatzes zur Erstellung eines dritten Holdout-Validierungssatzes bewusst, den Sie zur Bewertung verwenden Modellleistung basierend auf der Auswahl von Hyperparametern, sodass...