Was ist der Unterschied zwischen Conv-Schichten und FC-Schichten ? Warum kann ich keine Conv-Ebenen anstelle von FC-Ebenen verwenden
Was ist der Unterschied zwischen Conv-Schichten und FC-Schichten ? Warum kann ich keine Conv-Ebenen anstelle von FC-Ebenen verwenden
Casella und Berger geben die Invarianzeigenschaft des ML-Schätzers wie folgt an: Es scheint mir jedoch, dass sie die "Wahrscheinlichkeit" von ηη\eta völlig ad hoc und unsinnig definieren: Wenn ich Grundregeln der Wahrscheinlichkeitstheorie auf den einfachen Fall anwende, in dem , erhalte ich...
Ich hatte also einen Wahrscheinlichkeitstest und konnte diese Frage nicht wirklich beantworten. Es hat nur so etwas gefragt: "Wenn man bedenkt, dass eine Zufallsvariable ist, 0 , benutze die richtige Ungleichung, um zu beweisen, was höher oder gleich ist, E (X ^ 2) ^ 3 oder E (X ^ 3) ^ 2 .X.XXX.XX...
Sei unabhängige und identisch verteilte standardmäßige einheitliche Zufallsvariablen.X.1, … , X.n∼ U.( 0 , 1 )X1,…,Xn∼U(0,1)X_1,\dots,X_n \sim U(0,1) Lassen Y.n= ∑ichnX.2ichIch suche: E [ Y.n- -- -√]]Let Yn=∑inXi2I seek: E[Yn]\text{Let }\quad Y_n=\sum_i^nX_i^2 \quad \quad \text{I seek: } \quad...
In dem Artikel Deep Learning und das Prinzip des Informationsengpasses geben die Autoren in Abschnitt II A) Folgendes an: Einzelne Neuronen klassifizieren nur linear trennbare Eingaben, da sie nur Hyperebenen in ihrem Eingaberaum implementieren können . Hyperebenen können Daten optimal...
Ich versuche, eine exponentielle Abklingfunktion an y-Werte anzupassen, die bei hohen x-Werten negativ werden, kann meine nlsFunktion jedoch nicht richtig konfigurieren . Ziel Ich interessiere mich für die Steigung der Abklingfunktion (λλ\lambdanach einigen Quellen ). Wie ich diese Steigung...
Wenn ich zwei verschiedene symmetrische (in Bezug auf den Median) Verteilungen und , ist der Unterschied auch eine symmetrische (in Bezug auf den Median) Verteilung?Y X -
Wenn , finden Sie die Verteilung von Y = 2 X.X∼C(0,1)X∼C(0,1)X\sim\mathcal C(0,1) .Y=2X1−X2Y=2X1−X2Y=\frac{2X}{1-X^2} Wir haben FY(y)=Pr(Y≤y)FY(y)=Pr(Y≤y)F_Y(y)=\mathrm{Pr}(Y\le y) =Pr(2X1−X2≤y)=Pr(2X1−X2≤y)\qquad\qquad\qquad=\mathrm{Pr}\left(\frac{2X}{1-X^2}\le y\right)...
Ich habe das Deep Learning-Buch gelesen und bin auf folgenden Absatz gestoßen (Seite 109, zweiter Absatz): Die Trainings- und Testdaten werden durch eine Wahrscheinlichkeitsverteilung über Datensätze generiert, die als Datengenerierungsprozess bezeichnet wird. Wir machen normalerweise eine Reihe...
Ist es üblich, die Datenerweiterung nur auf Trainingssätze oder sowohl auf Trainings- als auch auf Testsätze
Sei . Wir wissen, dass und . Bedeutet dies , dass die Probe Mittelwert und die Probenvarianz sind abhängig voneinander? Oder bedeutet es nur, dass die Populationsvarianz als Funktion des Populationsmittelwerts geschrieben werden kann ?E [ X ] = n p V a r [ X ] = n p ( 1 - p )X.∼ B i n o m i a l ( n...
Ich verstehe, dass Sie beim Lernen von Schauspieler-Kritiker zum Lernen der Verstärkung einen "Schauspieler" haben, der über die zu treffenden Maßnahmen entscheidet, und einen "Kritiker", der diese Maßnahmen dann bewertet. Ich bin jedoch verwirrt darüber, was die Verlustfunktion tatsächlich aussagt...
Angenommen, wir machen ein Spielzeugbeispiel für einen anständigen Gradienten, bei dem eine quadratische Funktion unter Verwendung der festen Schrittgröße minimiert wird . ( )α = 0,03xT.A xxT.EINxx^TAxα = 0,03α=0,03\alpha=0.03A = [ 10 , 2 ; 2 , 3 ]EIN=[10,2;;2,3]]A=[10, 2; 2, 3] Wenn wir die Spur...
Lassen K.= ( K.11K.21K.12K.22)K.=(K.11K.12K.21K.22)K=\begin{pmatrix} K_{11} & K_{12}\\ K_{21} & K_{22} \end{pmatrix} werden , um eine symmetrische positive semidefinite reelle Matrix (PSD) mit . Dann für , | r | ≤ 1K.12= K.T.21K.12=K.21T.K_{12}=K_{21}^T| r | ≤1|r|≤1|r| \le 1 K.∗= ( K.11r...
Das nicht so seltene Auftreten bei komplexen maximal gemischten Modellen (Schätzung aller möglichen zufälligen Effekte für bestimmte Daten und Modelle) ist eine perfekte (+1 oder -1) oder nahezu perfekte Korrelation zwischen einigen zufälligen Effekten. Betrachten wir zum Zweck der Diskussion das...
Ich versuche, das Innenleben des Hamiltonian Monte Carlo (HMC) zu verstehen, kann aber den Teil nicht vollständig verstehen, wenn wir die deterministische Zeitintegration durch einen Vorschlag von Metropolis-Hasting ersetzen. Ich lese das großartige Einführungspapier A Conceptual Introduction to...
Ich suche derzeit nach einem Überblick über Verstärkungslernalgorithmen und möglicherweise nach einer Klassifizierung davon. Aber neben Sarsa und Q-Learning + Deep Q-Learning kann ich keine populären Algorithmen finden. Wikipedia gibt mir einen Überblick über verschiedene allgemeine Methoden des...
Z∼N(μ,Σ)Z∼N(μ,Σ)Z \sim \mathcal N(\mu, \Sigma)RdRd\mathbb R^dZ+=max(0,Z)Z+=max(0,Z)Z_+ = \max(0, Z) Dies tritt z. B. auf, wenn wir die ReLU-Aktivierungsfunktion in einem tiefen Netzwerk verwenden und über das CLT annehmen, dass die Eingaben in eine bestimmte Schicht ungefähr normal sind, dann ist...
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 2 Jahren . Ich bin neu im Bereich...
Welche Situationen kennen wir, in denen gezeigt werden kann, dass der Gradientenabstieg für nicht konvexe Funktionen konvergiert (entweder zu einem kritischen Punkt oder zu einem lokalen / globalen Minimum)? Für SGD zu nicht konvexen Funktionen wurde hier eine Art von Beweis überprüft:...