Statistiken und Big Data

35
PCA und der Zug / Test Split

Ich habe einen Datensatz, für den ich mehrere Sätze von binären Bezeichnungen habe. Für jeden Etikettensatz trainiere ich einen Klassifikator und bewerte ihn durch Kreuzvalidierung. Ich möchte die Dimensionalität mithilfe der Hauptkomponentenanalyse (PCA) reduzieren. Meine Frage ist: Ist es...

35
Was ist ein Reststandardfehler?

Beim Ausführen eines Mehrfachregressionsmodells in R ist eine der Ausgaben ein Reststandardfehler von 0,0589 bei 95.161 Freiheitsgraden. Ich weiß, dass die 95.161 Freiheitsgrade durch die Differenz zwischen der Anzahl der Beobachtungen in meiner Stichprobe und der Anzahl der Variablen in meinem...

35
Wie löst man Simpsons Paradoxon?

Simpsons Paradoxon ist ein klassisches Rätsel, das in einführenden Statistikkursen weltweit behandelt wird. In meinem Kurs ging es jedoch nur darum, festzustellen, dass ein Problem bestand und keine Lösung lieferte. Ich würde gerne wissen, wie man das Paradoxon löst. Das heißt, wenn man mit einem...

35
Beste Methode für kurze Zeitreihen

Ich habe eine Frage zur Modellierung kurzer Zeitreihen. Es ist keine Frage, ob man sie modelliert , sondern wie. Welche Methode empfehlen Sie für die Modellierung (sehr) kurzer Zeitreihen (etwa der Länge T≤20T≤20T \leq 20 )? Mit "am besten" meine ich hier die robusteste, die aufgrund der begrenzten...