Statistiken und Big Data

19
Zufälliger Wald ist überpassend?

Ich experimentiere mit Scikit-Learn in zufälligen Wäldern und erhalte großartige Ergebnisse mit meinem Trainingssatz, aber relativ schlechte Ergebnisse mit meinem Testsatz ... Hier ist das Problem (inspiriert vom Poker), das ich zu lösen versuche: Mit den Hole Cards von Spieler A, den Hole Cards...

19
Caret und Koeffizienten (glmnet)

Ich möchte Caret verwenden, um Rückschlüsse auf einen bestimmten Datensatz zu ziehen. Ist es möglich, Folgendes zu tun: Erzeugt Koeffizienten eines Glmnet-Modells, das ich in Caret trainiert habe. Ich möchte glmnet verwenden, da ich glaube, dass glm es nicht hat. Gibt es eine andere Metrik als...

19
Bootstrapping - Muss ich zuerst Ausreißer entfernen?

Wir haben einen Split-Test für eine neue Produktfunktion durchgeführt und möchten messen, ob die Umsatzsteigerung erheblich ist. Unsere Beobachtungen sind definitiv nicht normal verteilt (die meisten unserer Benutzer geben nichts aus, und innerhalb derer, die dies tun, ist es stark verzerrt in...

19
GEE: Auswahl der richtigen Korrelationsstruktur

Ich bin ein Epidemiologe, der versucht, GEEs zu verstehen, um eine Kohortenstudie richtig zu analysieren (unter Verwendung der Poisson-Regression mit einem Log-Link, um das relative Risiko abzuschätzen). Ich habe ein paar Fragen zur "funktionierenden Korrelation", die ich von einem Fachmann klären...

19
Ist ein gewichtetes

Ich habe ein robustes lineares Modell Rmit MM-Gewichten unter Verwendung des rlm()im MASS-Paket enthaltenen Modells geschätzt . `R`` liefert keinen Wert für das Modell, aber ich hätte gerne einen, wenn es sich um eine aussagekräftige Größe handelt. Ich bin auch daran interessiert zu wissen, ob es...