Statistiken und Big Data

15
Zufälliger Wald ist überpassend

Ich versuche, Random Forest Regression zum Erlernen von Scikits zu verwenden. Das Problem ist, dass ich einen sehr hohen Testfehler erhalte: train MSE, 4.64, test MSE: 252.25. So sehen meine Daten aus: (blau: echte Daten, grün: vorhergesagt): Ich benutze 90% für das Training und 10% für den...

15
Warum stabilisieren wir die Varianz?

Beim Lesen der Kaggle-Essay-Eval-Methode bin ich auf eine varianzstabilisierende Transformation gestoßen . Sie verwenden eine Varianzstabilisierungstransformation, um Kappa-Werte zu transformieren, bevor sie ihren Mittelwert bilden und sie dann zurücktransformieren. Obwohl ich das Wiki über...

15
Bedeutung der Ausgabebegriffe im gbm-Paket?

Ich benutze das gbm-Paket zur Klassifizierung. Wie erwartet ist das Ergebnis gut. Aber ich versuche die Ausgabe des Klassifikators zu verstehen. Die Ausgabe enthält fünf Begriffe. `Iter TrainDeviance ValidDeviance StepSize Improve` Könnte jemand die Bedeutung jeden Begriff, vor allem die...

15
Vergleich von Ranglisten

Angenommen, zwei Gruppen, bestehend aus und jeweils einen Satz von 25 Elementen von den wichtigsten bis zu den unwichtigsten. Wie lassen sich diese Rankings am besten vergleichen?n 2n1n1n_1n2n2n_2 Natürlich ist es möglich, 25 Mann-Whitney-U-Tests durchzuführen, aber dies würde zu 25 zu...

15
Cox-Modell vs. logistische Regression

Nehmen wir an, wir haben das folgende Problem: Sagen Sie voraus, welche Kunden in den nächsten 3 Monaten am wahrscheinlichsten aufhören, in unserem Shop einzukaufen. Wir kennen für jeden Kunden den Monat, in dem der Kauf in unserem Shop begonnen hat, und haben darüber hinaus viele...

15
Wie wählt man den richtigen Optimierungsalgorithmus?

Ich muss das Minimum einer Funktion finden. Wenn ich die Dokumente unter http://docs.scipy.org/doc/scipy/reference/optimize.html lese, sehe ich, dass es mehrere Algorithmen gibt, die dasselbe tun, dh das Minimum finden. Woher weiß ich, welches ich wählen soll? Einige der aufgelisteten...