Statistiken und Big Data

23

Haben Sie Empfehlungen für Bücher zum Autodidakt in Angewandter Statistik für Hochschulabsolventen?

Ich habe mehrere Statistikkurse am College besucht, aber meine Ausbildung war sehr theoretisch. Ich habe mich gefragt, ob einer von Ihnen einen Text in Angewandter Statistik (mit Abschluss) hat, den Sie empfehlen oder mit dem Sie gute Erfahrungen gemacht

23

Warum funktioniert Wilks 'Beweis von 1938 nicht für falsch spezifizierte Modelle?

In der berühmten Arbeit von 1938 (" Die Verteilung des Wahrscheinlichkeitsverhältnisses bei großen Stichproben zum Testen von zusammengesetzten Hypothesen ", Annals of Mathematical Statistics, 9: 60-62) leitete Samuel Wilks die asymptotische Verteilung des (log Likelihood Ratio) ab. für...

hypothesis-testing model-selection likelihood-ratio asymptotics misspecification

23

Folgen der Modellierung eines instationären Prozesses mit ARMA?

Ich verstehe, wir sollten ARIMA zur Modellierung einer instationären Zeitreihe verwenden. Nach allem, was ich lese, sollte ARMA nur für stationäre Zeitreihen verwendet werden. Ich versuche zu verstehen, was in der Praxis passiert, wenn ein Modell falsch klassifiziert wird und d = 0für eine...

r time-series arima stationarity

23

Was ist der Unterschied zwischen einer Verlustfunktion und einer Entscheidungsfunktion?

Ich sehe, dass beide Funktionen Teil von Data Mining-Methoden wie Gradient Boosting Regressors sind. Ich sehe, dass dies auch separate Objekte sind. Wie ist die Beziehung zwischen beiden im

regression classification data-mining decision-theory

23

Gibt es eine Möglichkeit, die Kovarianzmatrix zu verwenden, um Koeffizienten für die multiple Regression zu finden?

Für eine einfache lineare Regression kann der Regressionskoeffizient direkt aus der Varianz-Kovarianz-Matrix berechnet werden , und zwar durch wobei der Index der abhängigen Variablen und der Index der erklärenden Variablen ist.C d , eCCC deCd,eCe,eCd,eCe,e C_{d, e}\over C_{e,e} dddeee Wenn man...

regression regression-coefficients covariance-matrix

23

Nichtlineares vs. verallgemeinertes lineares Modell: Wie verweisen Sie auf logistische, Poisson usw. Regression?

Ich habe eine Frage zur Semantik, zu der ich die Meinungen anderer Statistiker haben möchte. Wir wissen, dass Modelle wie Logistik, Poisson usw. unter den Schirm verallgemeinerter linearer Modelle fallen. Das Modell enthält nichtlineare Funktionen der Parameter, die wiederum unter Verwendung des...

logistic generalized-linear-model poisson-regression nonlinear link-function

23

Was ist los mit Bonferroni Anpassungen?

Ich las das folgende Papier: Perneger (1998) Was ist mit Bonferroni Anpassungen falsch ist . Der Autor fasste zusammen, dass die Bonferroni-Anpassung allenfalls in der biomedizinischen Forschung nur in begrenztem Umfang Anwendung findet und nicht zur Bewertung von Belegen für bestimmte Hypothesen...

hypothesis-testing multiple-comparisons bonferroni

23

MSE-Zerlegung in Varianz und Bias-Quadrat

Indem gezeigt wird, dass MSE in Varianz plus das Quadrat der Abweichung zerlegt werden kann, hat der Beweis in Wikipedia einen Schritt, der im Bild hervorgehoben ist. Wie funktioniert das? Wie wird die Erwartung vom 3. bis zum 4. Schritt in das Produkt umgesetzt? Wenn die beiden Begriffe unabhängig...

random-variable expected-value mse

23

Exakter Binomialtest mit zwei Stichprobenanteilen in R (und einigen seltsamen p-Werten)

Ich versuche die folgende Frage zu lösen: Spieler A hat 17 von 25 Spielen gewonnen, während Spieler B 8 von 20 Spielen gewonnen hat. Gibt es einen signifikanten Unterschied zwischen beiden Verhältnissen? Das, was in R zu tun ist, ist das Folgende: >

r hypothesis-testing statistical-significance binomial proportion

23

Warum wird normalerweise die Summe der quadratischen Fehler (SSE) beim Anpassen eines Modells minimiert?

Die Frage ist sehr einfach: Warum versuchen wir beim Anpassen eines Modells an unsere linearen oder nichtlinearen Daten normalerweise, die Summe der Fehlerquadrate zu minimieren, um unseren Schätzer für den Modellparameter zu erhalten? Warum nicht eine andere Zielfunktion zum Minimieren wählen? Ich...

econometrics least-squares

23

Was ist die Architektur eines gestapelten Faltungsautocodierers?

Ich versuche also, Bilder von Menschen mit Faltungsnetzen zu trainieren. Ich habe die Papiere ( Paper1 und Paper2 ) und diesen Stackoverflow-Link gelesen , bin mir jedoch nicht sicher, ob ich die Struktur der Netze verstehe (in den Papieren ist dies nicht genau definiert). Fragen: Ich kann meine...

neural-networks deep-learning autoencoders deep-belief-networks

23

Warum ist Lambda „innerhalb eines Standardfehlers vom Minimum“ ein empfohlener Wert für Lambda in einer elastischen Netto-Regression?

Ich verstehe, welche Rolle Lambda in einer elastischen Netzregression spielt. Und ich kann verstehen, warum man lambda.min auswählen würde, den Wert von lambda, der quervalidierte Fehler minimiert. Meine Frage ist, wo in der Statistikliteratur die Verwendung von Lambda.1se empfohlen wird, dh der...

regression cross-validation regularization glmnet elastic-net

23

Einführung in das maschinelle Lernen für Mathematiker

In gewissem Sinne ist dies ein Crosspost von mir von math.stackexchange , und ich habe das Gefühl, dass diese Site ein breites Publikum ansprechen könnte. Ich suche eine mathematische Einführung in das maschinelle Lernen. Insbesondere ist viel Literatur, die gefunden werden kann, relativ ungenau...

machine-learning references pac-learning

23

Wie kann ich feststellen, ob meine Datenverteilung symmetrisch ist?

Ich weiß, dass, wenn der Median und der Mittelwert ungefähr gleich sind, dies bedeutet, dass es eine symmetrische Verteilung gibt, aber in diesem speziellen Fall bin ich nicht sicher. Der Mittelwert und der Median liegen ziemlich nahe beieinander (nur 0,487 m / Gallonen Unterschied), was mich zu...

distributions mean skewness median qq-plot

23

Können wir MLE verwenden, um die Gewichte des neuronalen Netzwerks abzuschätzen?

Ich habe gerade angefangen, etwas über Statistiken und Models zu lernen. Nach meinem derzeitigen Verständnis verwenden wir MLE, um die besten Parameter für ein Modell zu schätzen. Wenn ich jedoch zu verstehen versuche, wie die neuronalen Netze funktionieren, scheint es, als würden sie stattdessen...

maximum-likelihood neural-networks

23

Koordinate vs. Gefälle

Ich habe mich gefragt, was die verschiedenen Anwendungsfälle für die beiden Algorithmen Koordinatensinkflug und Gradientensinkflug sind . Ich weiß, dass der Koordinatenabstieg Probleme mit nicht glatten Funktionen hat, aber er wird in gängigen Algorithmen wie SVM und LASSO verwendet....

optimization gradient-descent

23

Was ist eine Region mit der höchsten Dichte (HDR)?

In der statistischen Folgerung wird in Problem 9.6b ein "Highest Density Region (HDR)" erwähnt. Die Definition dieses Begriffs fand ich jedoch nicht im Buch. Ein ähnlicher Begriff ist die höchste hintere Dichte (Highest Posterior Density, HPD). Aber es passt nicht in diesen Kontext, da in 9.6b...

confidence-interval estimation definition credible-interval highest-density-region

23

Differenz zweier lognormaler Zufallsvariablen

Sei und 2 iidrvs, wobei . Ich möchte die Verteilung für .X 2 log ( X 1 ) , log ( X 2 ) ≤ N ( μ , σ ) X 1 - X 2X1X1X_1X2X2X_2log(X1),log(X2)∼N(μ,σ)log⁡(X1),log⁡(X2)∼N(μ,σ)\log(X_1),\log(X_2) \sim N(\mu,\sigma)X1−X2X1−X2X_1 - X_2 Das Beste, was ich tun kann, ist, die Taylor-Reihe von beiden zu...

probability distributions random-variable lognormal approximation

23

Haben unzureichende Studien die Wahrscheinlichkeit von Fehlalarmen erhöht?

Diese Frage wurde schon einmal hier und hier gestellt, aber ich glaube nicht, dass die Antworten die Frage direkt ansprechen. Haben unzureichende Studien die Wahrscheinlichkeit von Fehlalarmen erhöht? Einige Nachrichtenartikel machen diese Behauptung. Zum Beispiel : Geringe statistische...

hypothesis-testing power false-discovery-rate

23

Kann jemand konjugierte Prioren auf einfachste Weise erklären?

Ich habe eine Weile versucht, die Idee der konjugierten Prioritäten in der Bayes'schen Statistik zu verstehen, aber ich verstehe es einfach nicht. Kann jemand die Idee auf einfachste Weise erklären, vielleicht am Beispiel des "Gaußschen

bayesian conditional-probability conjugate-prior