Statistiken und Big Data

21
Was ist der Fluch der Dimensionalität?

Konkret suche ich Referenzen (Papiere, Bücher), die den Fluch der Dimensionalität konsequent aufzeigen und erklären. Diese Frage stellte sich, nachdem ich dieses Whitepaper von Lafferty und Wasserman gelesen hatte . Im dritten Absatz erwähnen sie eine "bekannte" Gleichung, die impliziert, dass die...

21
Regression vs. ANOVA-Diskrepanz (aov vs lm in R)

Ich hatte immer den Eindruck, dass die Regression nur eine allgemeinere Form der ANOVA ist und die Ergebnisse identisch wären. In letzter Zeit habe ich jedoch sowohl eine Regression als auch eine ANOVA mit denselben Daten durchgeführt, und die Ergebnisse unterscheiden sich erheblich. Das heißt, im...

21
Moderne neuronale Netze, die ihre eigene Topologie aufbauen

Eine Einschränkung der Standardalgorithmen für neuronale Netze (wie Backprop) besteht darin, dass Sie eine Entwurfsentscheidung treffen müssen, wie viele verborgene Schichten und Neuronen pro Schicht Sie möchten. In der Regel ist die Lernrate und Verallgemeinerung sehr empfindlich auf diese...

21
"Investigator Intention" und Schwellenwerte / p-Werte

Ich lese John Kruschkes Folien "Doing Bayesian Data Analysis" , habe aber tatsächlich eine Frage zu seiner Interpretation von t-Tests und / oder dem gesamten Nullhypothesen-Signifikanztest-Framework. Er argumentiert, dass p-Werte schlecht definiert sind, weil sie von den Absichten des Untersuchers...

21
Erster Schritt für Big Data ( , )

Angenommen, Sie analysieren einen riesigen Datensatz mit Milliarden von Beobachtungen pro Tag, wobei jede Beobachtung einige Tausend spärliche und möglicherweise redundante numerische und kategoriale Variablen enthält. Angenommen, es gibt ein Regressionsproblem, ein Problem der unausgeglichenen...

21
Stapeln / Zusammenstellen von Modellen mit Caret

Ich finde es oft so, dass ich mit caretR mehrere verschiedene Vorhersagemodelle trainiere. Ich trainiere sie alle auf den gleichen Kreuzvalidierungsfalten mit caret::: createFoldsund wähle dann das beste Modell basierend auf kreuzvalidierten Fehlern. Die Medianvorhersage mehrerer Modelle...