Statistiken und Big Data

12
randomForest wählt Regression statt Klassifikation

Ich verwende das randomForest- Paket in R und verwende die Iris-Daten. Die generierte zufällige Gesamtstruktur ist eine Klassifizierung. Wenn ich jedoch einen Datensatz mit ca. 700 Features verwende (die Features sind jeweils Pixel in einem 28 x 28 Pixel großen Bild), wird die Beschriftungsspalte...

12
PCA-Modellauswahl mit AIC (oder BIC)

Ich möchte das Akaike Information Criterion (AIC) verwenden, um die entsprechende Anzahl von Faktoren auszuwählen, die in einem PCA extrahiert werden sollen. Das einzige Problem ist, dass ich nicht sicher bin, wie ich die Anzahl der Parameter bestimmen soll. Man betrachte eine T×NT×NT\times N...

12
Ein robustes (nicht parametrisches) Maß wie der Variationskoeffizient - IQR / Median oder eine Alternative?

Für einen bestimmten Datensatz wird der Spread häufig entweder als Standardabweichung oder als IQR (Interquartilbereich) berechnet. Während a standard deviationnormalisiert ist (z-Scores usw.) und somit zum Vergleich der Streuung aus zwei verschiedenen Populationen verwendet werden kann, ist dies...

12
Saisonbereinigung der Zähldaten

Ich habe stl () in R verwendet, um die Zähldaten in Trend-, saisonale und unregelmäßige Komponenten zu zerlegen. Die resultierenden Trendwerte sind keine ganzen Zahlen mehr. Ich habe folgende Fragen: Ist stl () eine geeignete Methode, um die Saison für Zählungsdaten zu entziehen? Kann ich lm ()...

12
Sind PCA-Lösungen einzigartig?

Wenn ich PCA für einen bestimmten Datensatz ausführe, ist die mir gegebene Lösung einzigartig? Das heißt, ich erhalte einen Satz von 2D-Koordinaten, basierend auf Zwischenpunktabständen. Ist es möglich, mindestens eine weitere Anordnung der Punkte zu finden, die diese Einschränkungen erfüllen...