Statistiken und Big Data

9

Unterschied zwischen Conv- und FC-Schichten?

Was ist der Unterschied zwischen Conv-Schichten und FC-Schichten ? Warum kann ich keine Conv-Ebenen anstelle von FC-Ebenen verwenden

neural-networks conv-neural-network convolution

9

Ist die Invarianzeigenschaft des ML-Schätzers aus Bayes'scher Sicht unsinnig?

Casella und Berger geben die Invarianzeigenschaft des ML-Schätzers wie folgt an: Es scheint mir jedoch, dass sie die "Wahrscheinlichkeit" von ηη\eta völlig ad hoc und unsinnig definieren: Wenn ich Grundregeln der Wahrscheinlichkeitstheorie auf den einfachen Fall anwende, in dem , erhalte ich...

self-study bayesian maximum-likelihood frequentist invariance

9

Was ist höher,

Ich hatte also einen Wahrscheinlichkeitstest und konnte diese Frage nicht wirklich beantworten. Es hat nur so etwas gefragt: "Wenn man bedenkt, dass eine Zufallsvariable ist, 0 , benutze die richtige Ungleichung, um zu beweisen, was höher oder gleich ist, E (X ^ 2) ^ 3 oder E (X ^ 3) ^ 2 .X.XXX.XX...

probability self-study probability-inequalities

9

Erwartung der Quadratwurzel der Summe unabhängiger quadratischer einheitlicher Zufallsvariablen

Sei unabhängige und identisch verteilte standardmäßige einheitliche Zufallsvariablen.X.1, … , X.n∼ U.( 0 , 1 )X1,…,Xn∼U(0,1)X_1,\dots,X_n \sim U(0,1) Lassen Y.n= ∑ichnX.2ichIch suche: E [ Y.n- -- -√]]Let Yn=∑inXi2I seek: E[Yn]\text{Let }\quad Y_n=\sum_i^nX_i^2 \quad \quad \text{I seek: } \quad...

probability expected-value uniform central-limit-theorem mgf

9

Hyperebenen klassifizieren Daten optimal, wenn Eingaben bedingt unabhängig sind - warum?

In dem Artikel Deep Learning und das Prinzip des Informationsengpasses geben die Autoren in Abschnitt II A) Folgendes an: Einzelne Neuronen klassifizieren nur linear trennbare Eingaben, da sie nur Hyperebenen in ihrem Eingaberaum implementieren können . Hyperebenen können Daten optimal...

bayesian neural-networks information-theory

9

Anpassung des exponentiellen Zerfalls mit negativen y-Werten

Ich versuche, eine exponentielle Abklingfunktion an y-Werte anzupassen, die bei hohen x-Werten negativ werden, kann meine nlsFunktion jedoch nicht richtig konfigurieren . Ziel Ich interessiere mich für die Steigung der Abklingfunktion (λλ\lambdanach einigen Quellen ). Wie ich diese Steigung...

r model exponential

9

Hat der Unterschied zwischen zwei symmetrischen Wohnmobilen auch eine symmetrische Verteilung?

Wenn ich zwei verschiedene symmetrische (in Bezug auf den Median) Verteilungen und , ist der Unterschied auch eine symmetrische (in Bezug auf den Median) Verteilung?Y X -

distributions median

9

Zeige

Wenn , finden Sie die Verteilung von Y = 2 X.X∼C(0,1)X∼C(0,1)X\sim\mathcal C(0,1) .Y=2X1−X2Y=2X1−X2Y=\frac{2X}{1-X^2} Wir haben FY(y)=Pr(Y≤y)FY(y)=Pr(Y≤y)F_Y(y)=\mathrm{Pr}(Y\le y) =Pr(2X1−X2≤y)=Pr(2X1−X2≤y)\qquad\qquad\qquad=\mathrm{Pr}\left(\frac{2X}{1-X^2}\le y\right)...

self-study distributions mathematical-statistics random-variable

9

Was bedeutet es, dass die Trainingsdaten durch eine Wahrscheinlichkeitsverteilung über Datensätze generiert werden?

Ich habe das Deep Learning-Buch gelesen und bin auf folgenden Absatz gestoßen (Seite 109, zweiter Absatz): Die Trainings- und Testdaten werden durch eine Wahrscheinlichkeitsverteilung über Datensätze generiert, die als Datengenerierungsprozess bezeichnet wird. Wir machen normalerweise eine Reihe...

deep-learning

9

Datenerweiterung nur für Trainingssätze?

Ist es üblich, die Datenerweiterung nur auf Trainingssätze oder sowohl auf Trainings- als auch auf Testsätze

machine-learning deep-learning regularization data-augmentation

9

Unabhängigkeit von Stichprobenmittelwert und Stichprobenvarianz in der Binomialverteilung

Sei . Wir wissen, dass und . Bedeutet dies , dass die Probe Mittelwert und die Probenvarianz sind abhängig voneinander? Oder bedeutet es nur, dass die Populationsvarianz als Funktion des Populationsmittelwerts geschrieben werden kann ?E [ X ] = n p V a r [ X ] = n p ( 1 - p )X.∼ B i n o m i a l ( n...

distributions binomial independence

9

Schauspieler-Kritiker-Verlustfunktion beim verstärkten Lernen

Ich verstehe, dass Sie beim Lernen von Schauspieler-Kritiker zum Lernen der Verstärkung einen "Schauspieler" haben, der über die zu treffenden Maßnahmen entscheidet, und einen "Kritiker", der diese Maßnahmen dann bewertet. Ich bin jedoch verwirrt darüber, was die Verlustfunktion tatsächlich aussagt...

machine-learning reinforcement-learning actor-critic

9

Warum werden meine Schritte kleiner, wenn beim Steigungsabstieg eine feste Schrittgröße verwendet wird?

Angenommen, wir machen ein Spielzeugbeispiel für einen anständigen Gradienten, bei dem eine quadratische Funktion unter Verwendung der festen Schrittgröße minimiert wird . ( )α = 0,03xT.A xxT.EINxx^TAxα = 0,03α=0,03\alpha=0.03A = [ 10 , 2 ; 2 , 3 ]EIN=[10,2;;2,3]]A=[10, 2; 2, 3] Wenn wir die Spur...

r machine-learning optimization gradient-descent

9

Wie kann man zeigen, dass diese Matrix positiv semidefinit ist?

Lassen K.= ( K.11K.21K.12K.22)K.=(K.11K.12K.21K.22)K=\begin{pmatrix} K_{11} & K_{12}\\ K_{21} & K_{22} \end{pmatrix} werden , um eine symmetrische positive semidefinite reelle Matrix (PSD) mit . Dann für , | r | ≤ 1K.12= K.T.21K.12=K.21T.K_{12}=K_{21}^T| r | ≤1|r|≤1|r| \le 1 K.∗= ( K.11r...

matrix linear-algebra

9

Was tun mit einer Korrelation mit zufälligen Effekten, die gleich 1 oder -1 ist?

Das nicht so seltene Auftreten bei komplexen maximal gemischten Modellen (Schätzung aller möglichen zufälligen Effekte für bestimmte Daten und Modelle) ist eine perfekte (+1 oder -1) oder nahezu perfekte Korrelation zwischen einigen zufälligen Effekten. Betrachten wir zum Zweck der Diskussion das...

r correlation mixed-model lme4-nlme covariance-matrix

9

Hamiltonian Monte Carlo: Wie kann man den Vorschlag von Metropolis-Hasting verstehen?

Ich versuche, das Innenleben des Hamiltonian Monte Carlo (HMC) zu verstehen, kann aber den Teil nicht vollständig verstehen, wenn wir die deterministische Zeitintegration durch einen Vorschlag von Metropolis-Hasting ersetzen. Ich lese das großartige Einführungspapier A Conceptual Introduction to...

mcmc monte-carlo hmc

9

Übersicht über Verstärkungslernalgorithmen

Ich suche derzeit nach einem Überblick über Verstärkungslernalgorithmen und möglicherweise nach einer Klassifizierung davon. Aber neben Sarsa und Q-Learning + Deep Q-Learning kann ich keine populären Algorithmen finden. Wikipedia gibt mir einen Überblick über verschiedene allgemeine Methoden des...

reinforcement-learning q-learning

9

Was sind der Mittelwert und die Varianz einer 0-zensierten multivariaten Normalen?

Z∼N(μ,Σ)Z∼N(μ,Σ)Z \sim \mathcal N(\mu, \Sigma)RdRd\mathbb R^dZ+=max(0,Z)Z+=max(0,Z)Z_+ = \max(0, Z) Dies tritt z. B. auf, wenn wir die ReLU-Aktivierungsfunktion in einem tiefen Netzwerk verwenden und über das CLT annehmen, dass die Eingaben in eine bestimmte Schicht ungefähr normal sind, dann ist...

probability distributions normal-distribution moments censoring

9

Wo finden Sie vorgefertigte Modelle für das Transferlernen? [Geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 2 Jahren . Ich bin neu im Bereich...

machine-learning classification neural-networks transfer-learning

9

Gradientenabstieg bei nicht konvexen Funktionen

Welche Situationen kennen wir, in denen gezeigt werden kann, dass der Gradientenabstieg für nicht konvexe Funktionen konvergiert (entweder zu einem kritischen Punkt oder zu einem lokalen / globalen Minimum)? Für SGD zu nicht konvexen Funktionen wurde hier eine Art von Beweis überprüft:...

gradient-descent gradient sgd non-convex