Statistiken und Big Data

9

Wie viel ist zu viel Überanpassung?

Wo ziehen Sie konzeptionell die Grenze zwischen einem Überanpassungsmodell und einem Modell mit angemessener Anpassung? Es ist klar, dass Sie überanpassen, wenn Ihr Modell auf Ihrem Trainingssatz ein paar Prozent besser abschneidet als auf Ihrem Testsatz. Angenommen, ich habe theoretisch ein...

9

Wie kann man eine Überanpassung im Faltungs-Neuronalen Netz identifizieren?

Ich verstehe, dass Dropout verwendet wird, um Überanpassungen im Netzwerk zu reduzieren. Dies ist eine Verallgemeinerungstechnik. Wie kann ich im Faltungsnetzwerk eine Überanpassung erkennen? Eine Situation, an die ich denken kann, ist, wenn die Trainingsgenauigkeit im Vergleich zur Test- oder...

machine-learning overfitting conv-neural-network dropout

9

Was zeigt eine keilartige Form des PCA-Diagramms an?

In ihrer Arbeit über Autoencoder für die Textklassifizierung demonstrierten Hinton und Salakhutdinov die Darstellung der zweidimensionalen LSA (die eng mit PCA verwandt ist) : . Durch Anwenden von PCA auf absolut unterschiedliche, leicht hochdimensionale Daten erhielt ich ein ähnlich aussehendes...

data-visualization pca

9

Wie ändert sich die Kosinusähnlichkeit nach einer linearen Transformation?

Gibt es eine mathematische Beziehung zwischen: die Kosinusähnlichkeit sim( A , B )sim⁡(A,B)\operatorname{sim}(A, B) zweier Vektoren EINAA und B.BB und die Kosinusähnlichkeit sim( M.EIN , M.B )sim⁡(MA,MB)\operatorname{sim}(MA, MB) von EINAA und B.BB , ungleichmäßig skaliert über eine gegebene Matrix...

linear-algebra cosine-similarity

9

Anpassen der negativen Binomialverteilung an Daten mit großer Anzahl

Ich habe ~ 1 Million Datenpunkte. Hier ist der Link zur Datei data.txt. Jeder von ihnen kann einen Wert zwischen 0 und 145 annehmen. Es handelt sich um einen diskreten Datensatz. Unten ist das Histogramm des Datensatzes. Auf der x-Achse ist die Zählung (0-145) und auf der y-Achse ist die Dichte....

r statistical-significance goodness-of-fit negative-binomial

9

Sind Baumschätzer IMMER voreingenommen?

Ich mache Hausaufgaben zu Entscheidungsbäumen und eine der Fragen, die ich beantworten muss, lautet: "Warum sind Schätzer aus voreingenommenen Bäumen aufgebaut und wie hilft das Absacken, ihre Varianz zu verringern?". Jetzt weiß ich, dass überangepasste Modelle tendenziell eine sehr geringe...

cart bias

9

Ist es eine falsche Idee, standardisierte Koeffizienten zu verwenden, um die relative Bedeutung von Regressionsprädiktoren zu bewerten?

Es gibt verschiedene Fragen, die sich auf die relativen Vorzüge verschiedener Methoden zur Bewertung der Bedeutung von Regressionsprädiktoren beziehen, zum Beispiel diese . Mir ist aufgefallen, dass @gung in diesem Kommentar die Praxis als "falsche Idee" bezeichnet und zur Unterstützung dieser...

regression standardization

9

Additive Verzerrung in xgboost (und deren Korrektur?)

Ich nehme gerade an einem Wettbewerb teil. Ich weiß, dass es meine Aufgabe ist, das gut zu machen, aber vielleicht möchte jemand mein Problem und seine Lösung hier diskutieren, da dies auch für andere auf ihrem Gebiet hilfreich sein könnte. Ich habe ein xgboost-Modell trainiert (ein baumbasiertes...

machine-learning boosting overfitting bias-correction

9

Dropout: Skalieren der Aktivierung im Vergleich zum Invertieren des Dropouts

Bei der Anwendung von Dropout in künstlichen neuronalen Netzen muss die Tatsache kompensiert werden, dass zum Zeitpunkt des Trainings ein Teil der Neuronen deaktiviert wurde. Dazu gibt es zwei gemeinsame Strategien: Skalieren der Aktivierung zur Testzeit Umkehren des Aussetzers während der...

neural-networks deep-learning dropout

9

LASSO-Regularisierungsparameter vom LARS-Algorithmus

In ihrer wegweisenden Arbeit 'Least Angle Regression' beschreiben Efron et al. Eine einfache Modifikation des LARS-Algorithmus, mit der vollständige LASSO-Regularisierungspfade berechnet werden können. l1l1l_1∥β∥1‖β‖1\Vert \beta \Vert_1 Es scheint jedoch, dass die meisten verfügbaren Pakete den...

regression lasso regularization lars

9

normale Annäherung an die Binomialverteilung: Warum np> 5?

Nahezu jedes Lehrbuch, in dem die normale Annäherung an die Binomialverteilung erörtert wird, erwähnt die Faustregel, dass die Annäherung verwendet werden kann, wenn np≥5np≥5np\geq5 und . Einige Bücher schlagen stattdessen vor. Dieselbe Konstante zeigt sich häufig in Diskussionen darüber, wann...

normal-distribution binomial approximation

9

Intuitive Erklärung von Logloss

In mehreren Kaggle-Wettbewerben basierte die Wertung auf "logloss". Dies bezieht sich auf einen Klassifizierungsfehler. Hier ist eine technische Antwort, aber ich suche nach einer intuitiven Antwort. Die Antworten auf diese Frage zur Mahalanobis-Entfernung haben mir sehr gut gefallen , aber PCA ist...

interpretation intuition loss-functions

9

Power of Lady Verkostung Tee Experiment

In dem bekannten Experiment Fisher die beobachtbare ist die Anzahl der korrigierten erraten cup mit zwei Arten von Cup A und B . Normalerweise ist es interessant, den kritischen Bereich zu berechnen, um die Nullhypothese (die Dame schätzt zufällig) angesichts der Größe des Tests α abzulehnen . Dies...

hypothesis-testing power fishers-exact

9

Ist es beim maschinellen Lernen besser, die Klassenverhältnisse ausgewogen oder repräsentativ für die Bevölkerung zu haben?

Nehmen wir im Zusammenhang mit maschinellem Lernen an, Sie haben ein Problem, bei dem Klassen in der realen Bevölkerung nicht ausgewogen sind - z. B. tritt Klasse A in 80% der Fälle und Klasse B in 20% der Fälle auf. Ist es in einem solchen Fall im Allgemeinen besser, wenn ein bestimmter...

machine-learning unbalanced-classes

9

Simulieren Sie eine Bernoulli-Variable mit der Wahrscheinlichkeit

Kann mir jemand sagen, wie man simuliert , wobei mit einem Münzwurf (so oft Sie möchten) mit &Bernoulli(ab)Bernoulli(ab)\mathrm{Bernoulli}\left({a\over b}\right)a,b∈Na,b∈Na,b\in \mathbb{N}P(H)=pP(H)=pP(H)=p Ich dachte über die Verwendung von Ablehnungsproben nach, konnte sie aber nicht...

probability simulation bernoulli-distribution rejection-sampling

9

So verbessern Sie die Laufzeit für die R MICE-Datenimputation

Meine Frage kurz: Gibt es Methoden zur Verbesserung der Laufzeit von R MICE (Datenimputation)? Ich arbeite mit einem Datensatz (30 Variablen, 1,3 Millionen Zeilen), der (ziemlich zufällig) fehlende Daten enthält. Etwa 8% der Beobachtungen in etwa 15 von 30 Variablen enthalten NAs. Um die fehlenden...

r multiple-imputation mice

9

Beweis der Wahrscheinlichkeitsintegraltransformation ohne Annahme, dass die CDF streng ansteigt

Ich weiß, dass der Beweis für die Wahrscheinlichkeitsintegraltransformation auf dieser Site mehrfach gegeben wurde. Die Beweise, die ich gefunden habe, verwenden jedoch die Hypothese, dass der CDF FX(x)FX(x)F_X(x) streng zunimmt (natürlich zusammen mit der Hypothese, dass XXX eine kontinuierliche...

probability cdf

9

Warum ist der Freiheitsgrad für ein übereinstimmendes Paar Test die Anzahl der Paare minus 1?

Ich bin es gewohnt, "Freiheitsgrade" als , wobei Sie das lineare Modell \ mathbf {y} = \ mathbf {X} \ boldsymbol {\ beta} + \ boldsymbol {\ epsilon} mit \ mathbf {y haben } \ in \ mathbb {R} ^ n , \ mathbf {X} \ in M_ {n \ times p} (\ mathbb {R}) die Entwurfsmatrix mit Rang r , \ boldsymbol {\...

t-test degrees-of-freedom

9

Was ist der Unterschied zwischen

Angenommen , ich habe eine Stichprobe .{ xn, yn}}N.n = 1{xn,yn}}n=1N.\lbrace x_n ,y_n \rbrace_{n=1}^N Angenommen,yn= β0+ β1xn+ εnyn=β0+β1xn+εny_n = \beta_0 + \beta_1 x_n + \varepsilon_n undy^n= β^0+ β^1xny^n=β^0+β^1xn\hat{y}_n = \hat{\beta}_0 +\hat{\beta}_1 x_n Was ist der Unterschied zwischen und...

regression

9

Gibt es eine andere Interpretation für eine Gamma-Verteilung mit einem nicht ganzzahligen Formparameter?

Es ist bekannt, dass eine Zufallsvariable, die mit dem ganzzahligen Formparameter Gamma-verteilt ist, der Summe der Quadrate von normalverteilten Zufallsvariablen entspricht.kkkkkk Aber was kann ich über eine gammaverteilte Zufallsvariable mit nicht ganzzahligem sagen ? Gibt es überhaupt eine...

probability gamma-distribution