Statistiken und Big Data

181
Was ist ein Datenwissenschaftler?

Nachdem ich kürzlich mein Doktorandenprogramm in Statistik abgeschlossen hatte, hatte ich in den letzten Monaten begonnen, nach einer Arbeit im Bereich Statistik zu suchen. Fast jedes Unternehmen, das ich in Betracht zog, hatte eine Stellenanzeige mit der Berufsbezeichnung " Data Scientist "....

172
Wie man einen QQ-Plot interpretiert

Ich arbeite mit einem kleinen Datensatz (21 Beobachtungen) und habe den folgenden normalen QQ-Plot in R: Was kann ich angesichts der Tatsache, dass die Darstellung keine Normalität unterstützt, auf die zugrunde liegende Verteilung schließen? Es scheint mir, dass eine Verteilung, die mehr nach...

167
Wann sollte ich Lasso vs Ridge verwenden?

Angenommen, ich möchte eine große Anzahl von Parametern schätzen und einige davon benachteiligen, weil ich der Meinung bin, dass sie im Vergleich zu den anderen nur geringe Auswirkungen haben sollten. Wie entscheide ich mich für ein Strafschema? Wann ist eine Kammregression angemessener? Wann...

159
ROC vs Precision-and-Recall-Kurven

Ich verstehe die formalen Unterschiede zwischen ihnen, was ich wissen möchte, ist, wenn es relevanter ist, eins gegen das andere zu verwenden. Bieten sie immer einen ergänzenden Einblick in die Leistung eines bestimmten Klassifizierungs- / Erkennungssystems? Wann ist es sinnvoll, sie beide...

153
Generativ vs. diskriminativ

Ich weiß, dass generativ "basierend auf P(x,y)P(x,y)P(x,y) " und diskriminativ "basierend auf P(y|x)P(y|x)P(y|x) " bedeutet, aber ich bin in mehreren Punkten verwirrt: Wikipedia (+ viele andere Zugriffe im Web) stuft Dinge wie SVMs und Entscheidungsbäume als diskriminierend ein. Aber diese haben...

147
Kann die Hauptkomponentenanalyse auf Datensätze angewendet werden, die eine Mischung aus kontinuierlichen und kategorialen Variablen enthalten?

Ich habe einen Datensatz, der sowohl kontinuierliche als auch kategoriale Daten enthält. Ich analysiere mit PCA und frage mich, ob es in Ordnung ist, die kategorialen Variablen in die Analyse einzubeziehen. Meines Wissens kann PCA nur auf kontinuierliche Variablen angewendet werden. Ist das...