Statistiken und Big Data

15

Logistische Regression: Scikit Learn vs glmnet

Ich versuche, die Ergebnisse aus der sklearnlogistischen Regressionsbibliothek mit glmnetpackage in R zu duplizieren . Aus der Dokumentation der sklearnlogistischen Regression geht es darum, die Kostenfunktion unter l2 Penalty

15

Müssen wir wirklich alle relevanten Prädiktoren einbeziehen?

Eine Grundannahme bei der Verwendung von Regressionsmodellen zur Inferenz ist, dass "alle relevanten Prädiktoren" in die Prädiktionsgleichung einbezogen wurden. Der Grund dafür ist, dass die Nichteinbeziehung eines wichtigen Faktors aus der realen Welt zu verzerrten Koeffizienten und damit zu...

regression assumptions bias predictor confounding

15

Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?

Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket:

r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

15

Statistische Variation in zwei Formel-1-Qualifikationsformaten

Ich habe gerade diesen BBC-Artikel über das Qualifying-Format in der Formel 1 gelesen . Die Organisatoren möchten das Qualifying weniger vorhersehbar machen, dh die statistische Streuung des Ergebnisses erhöhen. Bei einigen irrelevanten Details werden die Fahrer im Moment nach ihrer besten...

variance

15

Out-of-Bag-Fehler machen den Lebenslauf in zufälligen Wäldern unnötig?

Ich bin ziemlich neu in zufälligen Wäldern. In der Vergangenheit habe ich immer die Genauigkeit von Fit vs. Test mit Fit vs. Zug verglichen , um eine Überanpassung festzustellen. Aber ich habe gerade hier gelesen , dass: "In zufälligen Gesamtstrukturen ist keine Kreuzvalidierung oder ein separater...

cross-validation random-forest overfitting

15

Warum ist die posteriore Verteilung in der Bayes'schen Folgerung oft unlösbar?

Ich habe ein Problem zu verstehen, warum Bayesian Inference zu unlösbaren Problemen führt. Das Problem wird oft so erklärt: Was ich nicht verstehe, ist, warum dieses Integral zuerst ausgewertet werden muss: Es scheint mir, dass das Ergebnis des Integrals einfach eine Normalisierungskonstante ist...

bayesian inference

15

Vorhersagen aus dem BSTS-Modell (in R) scheitern vollständig

Nach dem Lesen diesen Blog-Beitrag über Bayes'sche strukturelle Zeitreihenmodelle , wollte ich die Implementierung im Kontext eines Problems betrachten, für das ich zuvor ARIMA verwendet hatte. Ich habe einige Daten mit einigen bekannten (aber lauten) saisonalen Komponenten - es gibt definitiv...

r time-series bayesian mcmc bsts

15

Was sind einige gute Interviewfragen für Entwickler von statistischen Algorithmen?

Ich interviewe Leute für eine Position als Entwickler / Forscher von Algorithmen in einem Kontext von Statistik, maschinellem Lernen und Data Mining. Ich suche nach Fragen, um insbesondere die Vertrautheit, das Verständnis und die Fließfähigkeit eines Kandidaten mit der zugrunde liegenden Theorie...

machine-learning probability distributions

15

Sampling von einer falschen Distribution (unter Verwendung von MCMC und anderen)

Meine grundlegende Frage lautet: Wie würden Sie eine Stichprobe aus einer unsachgemäßen Verteilung entnehmen? Ist es überhaupt sinnvoll, Proben aus einer unsachgemäßen Verteilung zu entnehmen? Xi'ans Kommentar hier geht auf die Frage ein, aber ich suchte nach mehr Details dazu. Spezifischer für...

distributions bayesian mcmc markov-process improper-prior

15

Erwartete Häufigkeit, mit der ein Würfel gewürfelt wird, bis jede Seite dreimal aufgetreten ist

Wie oft musst du voraussichtlich würfeln, bis jede Seite dreimal aufgetaucht ist? Diese Frage wurde in der neuseeländischen Grundschule gestellt und mithilfe von Simulationen gelöst. Was ist die analytische Lösung für dieses

probability multinomial negative-binomial coupon-collector-problem

15

Schrittweise Regression in R - Wie funktioniert es?

Ich versuche, den grundsätzlichen Unterschied zwischen schrittweiser und rückwärtiger Regression in R mit der Sprungfunktion zu verstehen. Für die schrittweise Regression habe ich den folgenden Befehl verwendet step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") Ich habe die folgende...

r regression

15

Wie unterscheiden sich ABC und MCMC in ihren Anwendungen?

Nach meinem Verständnis verfolgen Approximate Bayesian Computation (ABC) und Markov Chain Monte Carlo (MCMC) sehr ähnliche Ziele. Im Folgenden beschreibe ich mein Verständnis dieser Methoden und wie ich die Unterschiede in ihrer Anwendung auf reale Daten wahrnehme. Ungefähre Bayes'sche...

bayesian mcmc computational-statistics

15

Die Maschinengenauigkeit zur Steigerung des Gradienten nimmt mit zunehmender Anzahl von Iterationen ab

Ich experimentiere mit dem Algorithmus der Gradientenverstärkungsmaschine über das caretPaket in R. Unter Verwendung eines kleinen Datensatzes für Hochschulzulassungen habe ich den folgenden Code ausgeführt: library(caret) ### Load admissions dataset. ### mydata <-

machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

15

Schreiben der mathematischen Gleichung für ein Modell mit gemischten Effekten auf mehreren Ebenen

Die Frage zum Lebenslauf Ich versuche, (eine) detaillierte und präzise mathematische Darstellung (en) eines gemischten Effektmodells zu geben. Ich verwende das lme4Paket in R. Was ist die richtige mathematische Darstellung für mein Modell? Die Daten, die wissenschaftliche Frage und der...

r mixed-model multilevel-analysis lme4-nlme

15

Singularitätsprobleme im Gaußschen Mischungsmodell

In Kapitel 9 des Buches Mustererkennung und maschinelles Lernen gibt es diesen Teil über das Gaußsche Mischungsmodell: Um ehrlich zu sein, verstehe ich nicht wirklich, warum dies eine Singularität schaffen würde. Kann mir das jemand erklären? Es tut mir leid, aber ich bin nur ein Student und...

gaussian-mixture

15

RNNs: Wann BPTT anwenden und / oder Gewichte aktualisieren?

Ich versuche, die Anwendung von RNNs auf hoher Ebene auf die Sequenzmarkierung über (unter anderem) Graves 'Artikel über die Phonemklassifizierung von 2005 zu verstehen . Um das Problem zusammenzufassen: Wir haben ein großes Trainingsset, das aus (Eingabe-) Audiodateien einzelner Sätze und...

lstm rnn

15

Was bedeutet es zu sagen, dass ein Ereignis „irgendwann passiert“?

Betrachten Sie eine eindimensionale Zufallsbewegung auf den ganzen Zahlen mit dem Anfangszustand : x ≤ ZZZ\mathbb{Z}x ∈ Zx∈Zx\in\mathbb{Z} Sn= x + ∑i = 1nξichSn=x+∑i=1nξi\begin{equation} S_n=x+\sum^n_{i=1}\xi_i \end{equation} wobei die Inkremente IID sind, so dass . P { ξ i = 1 } = P { ξ i = - 1...

probability terminology stochastic-processes randomness random-walk

15

Sind wir Frequentisten wirklich nur implizite / unwissende Bayesianer?

Für ein gegebenes Inferenzproblem wissen wir, dass sich ein Bayes'scher Ansatz normalerweise sowohl in der Form unterscheidet als auch aus einem fequentistischen Ansatz resultiert. Frequentisten (in der Regel auch ich) weisen häufig darauf hin, dass für ihre Methoden keine vorherige Verwendung...

bayesian inference likelihood likelihood-ratio frequentist

15

Genauigkeit gegen Fläche unter der ROC-Kurve

Ich habe eine ROC-Kurve für ein Diagnosesystem erstellt. Die Fläche unter der Kurve wurde dann nicht parametrisch auf AUC = 0,89 geschätzt. Als ich versuchte, die Genauigkeit bei der optimalen Schwellenwerteinstellung (dem Punkt, der dem Punkt (0, 1) am nächsten liegt) zu berechnen, erhielt ich...

roc reliability accuracy auc

15

Wie schätzt "predict.randomForest" Klassenwahrscheinlichkeiten?

Wie randomForestschätzt das Paket Klassenwahrscheinlichkeiten, wenn ich verwende predict(model, data, type = "prob")? Ich habe rangerzufällige Gesamtstrukturen mit dem probability = TArgument trainiert , um Wahrscheinlichkeiten vorherzusagen. rangerIn der Dokumentation heißt es: Bauen Sie einen...

r random-forest prediction