Ich gehe gerade die Zufallssuche von Bengio und Bergsta für die Hyperparameter -Optimierung [1] durch, bei der die Autoren behaupten, die Zufallssuche sei effizienter als die Rastersuche, um ungefähr die gleiche Leistung zu erzielen.
Meine Frage ist: Stimmen die Leute hier dieser Behauptung zu? In meiner Arbeit habe ich die Rastersuche hauptsächlich wegen des Mangels an verfügbaren Werkzeugen verwendet, um eine einfache Zufallssuche durchzuführen.
Wie ist die Erfahrung von Personen, die Raster- oder Zufallssuche verwenden?
our Optunity
sollte). Wie die Verhaltenshilfe sagt: "Wenn sich einige ... zufällig auf Ihr Produkt oder Ihre WebsiteAntworten:
Die zufällige Suche hat eine Wahrscheinlichkeit von 95%, eine Parameterkombination innerhalb der 5% -Optima mit nur 60 Iterationen zu finden. Auch im Vergleich zu anderen Methoden bleibt es bei lokalen Optima nicht hängen.
Schauen Sie sich diesen großartigen Blog-Beitrag bei Dato von Alice Zheng an, insbesondere den Abschnitt Hyperparameter-Optimierungsalgorithmen .
Sie können diese Chance mit einer höheren Anzahl von Versuchen verbessern.
Alles in allem ist die Rastersuche möglicherweise nicht mehr durchführbar, wenn zu viele Parameter eingestellt werden müssen. Dann versuche ich, nach dem Zufallsprinzip zu suchen.
quelle
Sehen Sie sich die Grafik auf dem Papier noch einmal an (Abbildung 1). Angenommen, Sie haben zwei Parameter. Bei der 3x3-Rastersuche überprüfen Sie nur drei verschiedene Parameterwerte aus jedem der Parameter (drei Zeilen und drei Spalten im Diagramm links), während Sie bei der Zufallssuche neun (!) Verschiedene Parameterwerte überprüfen von jedem der Parameter (neun verschiedene Zeilen und neun verschiedene Spalten).
Offensichtlich ist die zufällige Suche möglicherweise nicht für alle Parameterbereiche repräsentativ, aber mit zunehmender Stichprobengröße wird die Wahrscheinlichkeit immer geringer.
quelle
Wenn Sie eine Funktion in die Rastersuche schreiben können, ist es wahrscheinlich noch einfacher, eine Funktion für die Zufallssuche zu schreiben, da Sie das Raster nicht im Voraus angeben und speichern müssen.
Abgesehen davon treffen Methoden wie LIPO, Partikelschwarmoptimierung und Bayesianische Optimierung intelligente Entscheidungen darüber, welche Hyperparameter wahrscheinlich besser sind. Wenn Sie also die Anzahl der Modelle auf ein absolutes Minimum beschränken müssen (z. B. weil es teuer ist, a anzupassen) Modell) sind diese Tools vielversprechende Optionen. Sie sind auch globale Optimierer und haben daher eine hohe Wahrscheinlichkeit, das globale Maximum zu lokalisieren. Einige der Akquisitionsfunktionen von BO-Methoden weisen nachweislich Bedauern auf, was sie noch attraktiver macht.
Weitere Informationen finden Sie in diesen Fragen:
Was sind einige der Nachteile der Bayes'schen Hyperparameteroptimierung?
Optimierung, wenn die Kostenfunktion nur langsam evaluiert werden kann
quelle
Standardmäßig sind Zufallssuche und Rastersuche schreckliche Algorithmen, sofern nicht eine der folgenden Bedingungen zutrifft.
Die meisten Leute behaupten, dass die Zufallssuche besser ist als die Rastersuche. Beachten Sie jedoch, dass bei einer vordefinierten Gesamtzahl von Funktionsbewertungen die Rastersuche zu einer guten Abdeckung des Suchraums führt, die nicht schlechter ist als die Zufallssuche mit demselben Budget, und der Unterschied zwischen beiden ist vernachlässigbar. Wenn Sie einige Annahmen hinzufügen, z. B. dass Ihr Problem trennbar oder fast trennbar ist, finden Sie Argumente zur Unterstützung der Rastersuche. Insgesamt sind beide vergleichsweise schrecklich, wenn nicht in ganz wenigen Fällen. Daher besteht keine Notwendigkeit, zwischen ihnen zu unterscheiden, es sei denn, einige zusätzliche Annahmen zu dem Problem werden berücksichtigt.
quelle
Das Finden eines Punktes innerhalb von 95% der Maxima in einer 2D-Topographie mit nur einem Maxima erfordert 100% / 25 = 25%, 6,25%, 1,5625% oder 16 Beobachtungen. Solange die ersten vier Beobachtungen korrekt bestimmen, in welchem Quadranten sich die Maxima (Extrema) befinden, beträgt die 1D-Topographie 100/2 = 50, 25, 12,5, 6,25, 3,125 oder 5 * 2. Ich vermute, dass Menschen, die nach mehreren weit auseinander liegenden lokalen Maxima suchen, die Suche nach großen Anfangsgittern und dann die Regression oder eine andere Vorhersagemethode verwenden. Bei einem Raster von 60 Beobachtungen sollte eine Beobachtung innerhalb von 100/60 = 1,66% der Extrema liegen. Globale Optimierung Wikipedia Ich denke immer noch, dass es eine bessere Methode als Zufälligkeit gibt.
quelle