Statistiken und Big Data

11
Wie man die Ergebnisse interpretiert, wenn sowohl Grat als auch Lasso getrennt gut abschneiden, aber unterschiedliche Koeffizienten erzeugen

Ich führe sowohl mit Lasso als auch mit Ridge ein Regressionsmodell durch (um eine diskrete Ergebnisvariable im Bereich von 0 bis 5 vorherzusagen). Bevor ich das Modell ausführe, verwende ich die SelectKBestMethode scikit-learn, um den Funktionsumfang von 250 auf 25 zu reduzieren . Ohne eine...

11
Sollte ich nicht signifikante Ergebnisse melden?

Ich habe einen Kruskal-Wallis-Test durchgeführt, und für einige der Fragen ist der p-Wert nicht signifikant. Würde ich dies auf die gleiche Weise melden, als ob es signifikant wäre, unter Angabe von df, Teststatistik und p-Wert? Es wäre also so etwas wie ein Kruskal-Wallis-Test, aber es wurde...

11
Pfeile der zugrunde liegenden Variablen im PCA-Biplot in R.

Auf die Gefahr hin, die Frage softwarespezifisch zu machen, und mit der Entschuldigung ihrer Allgegenwart und Eigenheiten möchte ich nach der Funktion biplot()in R und insbesondere nach der Berechnung und Darstellung der entsprechenden, überlagerten Standardpfeile fragen zu den zugrunde liegenden...

11
Vor- und Nachteile von Bootstrapping

Ich habe gerade etwas über das Konzept des Bootstrapens gelernt und eine naive Frage kam mir in den Sinn: Wenn wir immer zahlreiche Bootstrap-Beispiele unserer Daten generieren können, warum sollten wir uns überhaupt die Mühe machen, mehr "echte" Daten zu erhalten? Ich glaube, ich habe eine...

11
RandomForest- und Klassengewichte

Frage in einem Satz: Weiß jemand, wie man gute Klassengewichte für einen zufälligen Wald bestimmt? Erläuterung: Ich spiele mit unausgeglichenen Datensätzen herum. Ich möchte das RPaket randomForestverwenden, um ein Modell auf einem sehr verzerrten Datensatz mit nur wenigen positiven und vielen...