Als «optimization» getaggte Fragen

85

Lernrate wählen

Ich arbeite derzeit an der Implementierung von Stochastic Gradient Descent SGDfür neuronale Netze unter Verwendung von Backpropagation, und obwohl ich den Zweck verstehe, habe ich einige Fragen zur Auswahl von Werten für die Lernrate. Bezieht sich die Lernrate auf die Form des Fehlergradienten, da...

28

Sollte ein Modell umgeschult werden, wenn neue Beobachtungen vorliegen?

Daher konnte ich keine Literatur zu diesem Thema finden, aber es scheint sich zu lohnen, darüber nachzudenken: Was sind die Best Practices für Modellbildung und -optimierung, wenn neue Beobachtungen verfügbar sind? Gibt es eine Möglichkeit, den Zeitraum / die Häufigkeit des erneuten Trainings eines...

machine-learning predictive-modeling optimization training

21

Gibt es Regeln für die Auswahl der Größe einer Mini-Charge?

Beim Training neuronaler Netze ist ein Hyperparameter die Größe eines Minibatches. Übliche Auswahlmöglichkeiten sind 32, 64 und 128 Elemente pro Minibatch. Gibt es irgendwelche Regeln / Richtlinien, wie groß eine Mini-Charge sein sollte? Gibt es Veröffentlichungen, in denen die Auswirkungen auf das...

neural-network deep-learning convnet optimization

20

Konvergiert der Gefälleverlauf immer zu einem Optimum?

Ich frage mich, ob es ein Szenario gibt, in dem der Gefälle nicht auf ein Minimum konvergiert. Mir ist bewusst, dass der Gradientenabstieg nicht immer garantiert zu einem globalen Optimum konvergiert. Mir ist auch bewusst, dass es von einem Optimum abweichen kann, wenn beispielsweise die...

machine-learning neural-network deep-learning optimization gradient-descent

18

Richtlinien zur Auswahl eines Optimierers für das Training neuronaler Netze

Ich benutze seit einiger Zeit neuronale Netze. Eine Sache, mit der ich ständig zu kämpfen habe, ist die Auswahl eines Optimierers zum Trainieren des Netzwerks (mit Backprop). Normalerweise beginne ich einfach mit einem (zB Standard-SGD) und versuche es dann ziemlich zufällig mit anderen. Ich habe...

neural-network optimization backpropagation

18

lokale Minima gegen Sattelpunkte beim Tiefenlernen

Ich hörte Andrew Ng (in einem Video, das ich leider nicht mehr finden kann) darüber sprechen, wie sich das Verständnis der lokalen Minima bei tiefen Lernproblemen dahingehend verändert hat, dass sie jetzt als weniger problematisch angesehen werden, weil sie sich in hochdimensionalen Räumen befinden...

machine-learning deep-learning optimization convergence

13

Ist Gradient Descent für jeden Optimierer von zentraler Bedeutung?

Ich möchte wissen, ob Gradient Descent der Hauptalgorithmus ist, der in Optimierern wie Adam, Adagrad, RMSProp und mehreren anderen Optimierern verwendet wird.

machine-learning neural-network deep-learning optimization gradient-descent

13

Warum werden genetische Algorithmen nicht zur Optimierung neuronaler Netze verwendet?

Nach meinem Verständnis sind genetische Algorithmen leistungsstarke Werkzeuge für die Optimierung mehrerer Ziele. Darüber hinaus ist das Trainieren neuronaler Netze (besonders tiefer Netze) schwierig und mit vielen Problemen verbunden (nicht konvexe Kostenfunktionen - lokale Minima, verschwinden-...

neural-network optimization genetic-algorithms

13

Warum nicht immer die ADAM-Optimierungstechnik verwenden?

Es scheint, dass der Optimierer für die adaptive Momentschätzung (Adam) fast immer besser funktioniert (schneller und zuverlässiger, wenn ein globales Minimum erreicht wird), wenn die Kostenfunktion beim Trainieren neuronaler Netze minimiert wird. Warum nicht immer Adam benutzen? Warum sollte man...

neural-network optimization

13

Wie viele Features sollen mit Random Forests getestet werden?

Auf der Wikipedia-Seite, die "Die Elemente des statistischen Lernens" zitiert, heißt es: Für ein Klassifizierungsproblem mit Merkmalen gilt in der Regel ⌊ √ppp -Funktionen werden in jeder Aufteilung verwendet.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Ich verstehe, dass dies eine ziemlich gut fundierte...

statistics random-forest optimization evaluation sampling

11

Fisher Scoring v / s Koordinatenabstieg für MLE in R.

Die R-Basisfunktion glm()verwendet Fishers Scoring für MLE, während die glmnetanscheinend die Koordinatenabstiegsmethode verwendet, um dieselbe Gleichung zu lösen. Der Koordinatenabstieg ist zeiteffizienter als das Fisher-Scoring, da das Fisher-Scoring zusätzlich zu einigen anderen...

machine-learning r algorithms optimization

10

Beste Sprachen für wissenschaftliches Rechnen [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in...

efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

10

Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem...

machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

9

Warum führt die Lernrate dazu, dass die Gewichte meines neuronalen Netzwerks in die Höhe schnellen?

Ich benutze Tensorflow, um einfache neuronale Netze für ein bisschen Forschung zu schreiben, und ich hatte während des Trainings viele Probleme mit 'Nan'-Gewichten. Ich habe viele verschiedene Lösungen ausprobiert, wie das Ändern des Optimierers, das Ändern des Verlusts, der Datengröße usw., aber...

machine-learning python tensorflow optimization gradient-descent

8

Warum führt eine Verringerung der SGD-Lernrate zu einer massiven Erhöhung der Genauigkeit?

In den Papieren, wie dies oft ich die Ausbildung Kurven mit dieser Art von Form sehen: In diesem Fall wurde SGD mit einem Faktor von 0,9 verwendet und die Lernrate nahm alle 30 Epochen um den Faktor 10 ab. Warum nimmt der Fehler so stark ab, wenn die Lernrate geändert wird? Warum nimmt der...

optimization

8

Kann es bei Advanced Optimization-Algorithmen zu einer Überanpassung kommen?

Während eines Online-Kurses über maschinelles Lernen von Andrew Ng auf coursera stieß ich auf ein Thema namens Überanpassung . Ich weiß, dass es auftreten kann, wenn ein Gradientenabstieg in einer linearen oder logistischen Regression verwendet wird, aber kann es auftreten, wenn erweiterte...

machine-learning regression optimization gradient-descent overfitting

8

Generieren Sie Vorhersagen, die orthogonal (nicht korreliert) zu einer bestimmten Variablen sind

Ich habe eine XMatrix, eine yVariable und eine andere Variable ORTHO_VAR. Ich muss die yVariable vorhersagen , wobei Xdie Vorhersagen aus diesem Modell orthogonal sein müssen, ORTHO_VARwährend sie so korreliert ywie möglich sind. Ich würde es vorziehen, wenn die Vorhersagen mit einer nicht...

correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

7

Backpropagation: Wäre bei Methoden zweiter Ordnung die ReLU-Ableitung 0? und wie wirkt es sich auf das Training aus?

ReLU ist eine Aktivierungsfunktion, definiert als wobei a = Wx + b .h=max(0,a)h=max(0,a)h = \max(0, a)a=Wx+ba=Wx+ba = Wx + b Normalerweise trainieren wir neuronale Netze mit Methoden erster Ordnung wie SGD, Adam, RMSprop, Adadelta oder Adagrad. Die Rückausbreitung in Verfahren erster Ordnung...

neural-network optimization backpropagation

7

Einfaches Beispiel für die Minimierung genetischer Algen

Ich habe eine Weile nach Beispielen gesucht, wie ich mithilfe eines genetischen Algorithmus in Python die Punkte finden kann, an denen eine Funktion ihr Minimum erreicht. Ich habe mir die DEAP-Dokumentation angesehen, aber die Beispiele dort waren für mich ziemlich schwer zu befolgen. Zum Beispiel:...

python optimization genetic-algorithms