Statistiken und Big Data

8

Enthält ein optimal entworfenes neuronales Netzwerk beim Training keine „toten“ ReLU-Neuronen?

Sollte ich mein neuronales Netzwerk im Allgemeinen mit weniger Neuronen neu trainieren, damit es weniger tote ReLU-Neuronen hat? Ich habe widersprüchliche Meinungen über tote ReLUs gelesen. Einige Quellen sagen, dass tote ReLUs gut sind, weil sie die Sparsamkeit fördern. Andere sagen, dass sie...

machine-learning neural-networks conv-neural-network

8

fit GLM für weibliche Familie [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 12 Monaten . Ich versuche, ein...

r generalized-linear-model survival gamlss

8

Scikit-Learn-Normalisierungsmodus (L1 vs L2 & Max)

Ich habe mich gefragt, ob hier jemand den Unterschied zwischen dem Normalisierungsmodus l1, l2 und max im Modul sklearn.preprocessing.normalize () erklären kann. Nachdem ich die Dokumentation gelesen hatte, konnte ich den Unterschied nicht

normalization scikit-learn

8

Multivariates Zeitreihen-Clustering

Ich sammle eine Gruppe multivariater Zeitsequenzen. Zum Beispiel gibt es 2000 Zeitreihen. Jede Zeitreihe hat 12 Dimensionen. Gibt es systematische Modelle / Algorithmen, die multivariate Zeitreihen gruppieren können? Zum Beispiel möchte ich einige Zeitreihen identifizieren, die sich stark von...

machine-learning time-series clustering multivariate-analysis sequential-pattern-mining

8

Gesetz der totalen Erwartung / Turmregel: Warum müssen beide Zufallsvariablen aus demselben Wahrscheinlichkeitsraum stammen?

Ich zitiere (Hervorhebung meiner) aus der Wikipedia-Definition : Der Satz in der Wahrscheinlichkeitstheorie, bekannt als das Gesetz der Gesamterwartung, ... besagt, dass wenn X eine integrierbare Zufallsvariable ist (dh eine Zufallsvariable, die E (| X |) <∞ erfüllt) und Y eine beliebige...

probability expected-value conditional-expectation

8

Was ist die richtige Analyse für diese Art von Frage? (Bedingte logistische Regression?)

Was ist angesichts des folgenden Experiments die richtige statistische Methode, um die folgende Frage zu beantworten: Eine Teilnehmerin erhält nacheinander Bilder und muss nach jedem Bild antworten, ob sie ein Objekt oder ein Gesicht gesehen hat. In jedem Versuch (Bildpräsentation) wird das...

hypothesis-testing logistic multiple-comparisons paired-data

8

Gibt es Möglichkeiten, mit dem verschwindenden Gradienten für die Sättigung von Nichtlinearitäten umzugehen, bei denen keine Chargennormalisierung oder ReLu-Einheiten erforderlich sind?

Ich wollte ein Netzwerk mit Nichtlinearitäten trainieren, die unter dem Verschwinden leiden (oder dem explodierenden Gradientenproblem, obwohl es hauptsächlich verschwindet). Ich weiß, dass die (derzeitige) Standardmethode darin besteht, die Chargennormalisierung 1 [BN] 1 zu verwenden oder einfach...

machine-learning neural-networks conv-neural-network batch-normalization

8

Wahrscheinlichkeit, dass Personen ihrem Partner nicht an einem runden Tisch gegenüberstehen

Wenn Paare zufällig an einem runden Tisch sitzen, wie groß ist dann die Chance, dass niemand ihrem Partner gegenüber sitzt? Wenn es vier Personen gibt, lautet die Antwort 2/3. Wenn es sechs sind, ist es 8/15, denke ich. Danach wird meine Schritt-für-Schritt-Methode, bei der alle Möglichkeiten...

probability

8

Wann entspricht die LSQ-Linie (Least Square Regression) der LAD-Linie (Least Absolute Deviation)?

Ich habe die folgende Frage zur Hand. Angenommen, repräsentieren eine Reihe von bi-variablen Beobachtungen auf so dassUnter welchen Bedingungen ist die Regressionslinie für das kleinste Quadrat von auf identisch mit der Linie für die geringste absolute Abweichung?(x1,y1) , (x2,y2) , ⋯ ,...

regression self-study least-squares least-absolute-deviations

8

Die Score-Funktion von Fisher hat den Mittelwert Null - was bedeutet das überhaupt?

Ich versuche, der prinzipiellen Überprüfung der Wahrscheinlichkeitstheorie zu folgen . Sie definieren Fisher’s score functionals Die erste Ableitung der Log-Likelihood-Funktion und sie sagen, dass die Punktzahl ein Zufallsvektor ist. ZB für die geometrische Verteilung: u(π) = n(1π- -y¯1 -...

likelihood geometric-distribution fisher-scoring

8

Plötzlicher Genauigkeitsverlust beim Training von LSTM oder GRU in Keras

Mein wiederkehrendes neuronales Netzwerk (LSTM bzw. GRU) verhält sich auf eine Weise, die ich nicht erklären kann. Das Training beginnt und es trainiert gut (die Ergebnisse sehen ziemlich gut aus), wenn die Genauigkeit plötzlich abnimmt (und der Verlust schnell zunimmt) - sowohl Trainings- als auch...

neural-networks lstm gru

8

Hamiltonian / Hybrid MCMC 'Massenmatrix'-Terminologie

Ich versuche, HMC mit einer nicht diagonalen Massenmatrix zu implementieren, aber ich werde von einigen Begriffen gestolpert. Laut BDA3 und Neals Bericht ist der kinetische Energiebegriff (der meiner Meinung nach aus Bequemlichkeitsgründen immer verwendet wird) K.( p ) = pT.M.- 1p2.K(p)=pTM−1p2....

bayesian mcmc monte-carlo

8

Vorhersagen von Zustandswahrscheinlichkeiten oder Zuständen für neue Daten mit dem DepmixS4-Paket für Hidden Markov-Modelle

Es scheint, als könnte ich die Parameter gut lernen und die hinteren Wahrscheinlichkeiten für die Trainingsdaten finden, aber ich habe keine Ahnung, wie ich neue Vorhersagen für neue Daten treffen kann. Das Problem liegt insbesondere in den Übergangswahrscheinlichkeiten, die sich bei Kovariaten...

r hidden-markov-model mixture

8

Varianz des gewichteten Mittelwerts größer als der ungewichtete Mittelwert

Ein Rezensent von mir fragt nach einem Grund, warum ich ungewichtete Daten anstelle von gewichteten Daten verwendet habe. Ich habe das Problem mit einem Statistiker besprochen, und seine Antwort war in etwa so Wenn Sie unabhängige Beobachtungen haben und den Gesamtmittelwert nehmen, ist seine...

variance weighted-mean weighted-data

8

Wie kann eine geringere Lernrate die Leistung eines GBM beeinträchtigen?

Ich habe mich immer der Volksweisheit angeschlossen, dass das Verringern der Lernrate in einem GBM (Gradient Boosted Tree Model) die Out-of-Sample-Leistung des Modells nicht beeinträchtigt. Heute bin ich mir nicht so sicher. Ich passe Modelle (Minimierung der Summe der quadratischen Fehler) an den...

machine-learning boosting out-of-sample

8

Schritt Änderungserkennung

Ich verwende eine nichtlineare Methode der kleinsten Quadrate, um eine analytische Funktion an einige experimentelle Daten anzupassen. Ich muss dem Algorithmus einige anfängliche Schätzwerte geben, also versuche ich herauszufinden, wie dies automatisch gemacht wird (und nicht mit dem Auge, was ich...

time-series variance

8

Neuronale Netze: Ist eine Epoche in SGD dieselbe wie eine Epoche in Mini-Batch?

In SGD wäre eine Epoche die vollständige Darstellung der Trainingsdaten, und dann würde es N Gewichtsaktualisierungen pro Epoche geben (wenn der Trainingssatz N Datenbeispiele enthält). Wenn wir jetzt stattdessen Mini-Batches durchführen, beispielsweise in Batches von 20. Besteht eine Epoche jetzt...

machine-learning neural-networks

8

Was ist der Unterschied zwischen Beta-Regression und Quasi-Glm mit Varianz =

Lassen Sie mich zunächst einige Hintergrundinformationen geben. Ich werde meine Fragen am Ende zusammenfassen. Die Beta-Verteilung, parametrisiert durch ihren Mittelwert und ϕ , hat Var ( Y ) = V ( μ ) / ( ϕ + 1 ) , wobei V ( μ ) = μ ( 1 - μ ) die Varianzfunktion

generalized-linear-model lme4-nlme binomial beta-regression quasi-likelihood

8

Berechnung der bedingten Erwartung an

Ich habe nicht wirklich gesehen, dass Wahrscheinlichkeitsbücher die bedingte Erwartung berechnen, außer für σσ\sigma Algebren, die durch eine diskrete Zufallsvariable erzeugt werden. Sie geben einfach die Existenz der bedingten Erwartung zusammen mit ihren Eigenschaften an und belassen sie dabei....

probability conditional-probability conditional-expectation conditioning sigma-algebra

8

Warum ist im experimentellen Design eine Blockierung erforderlich, wenn wir bereits eine zufällige Zuordnung durchführen?

Ich gehe den ersten Teil des Duke-Statistikkurses über Coursera durch, und das Konzept des Blockierens im experimentellen Design wird aufgegriffen. Wenn ich das richtig verstehe, bezieht sich das Blockieren auf die Aufteilung von Themen in Gruppen basierend auf einer Variablen, die das Ergebnis...

experiment-design blocking