Als «large-data» getaggte Fragen

"Große Datenmenge" bezieht sich auf Situationen, in denen die Anzahl der Beobachtungen (Datenpunkte) so groß ist, dass Änderungen in der Art und Weise erforderlich sind, wie der Datenanalyst die Analyse betrachtet oder durchführt. (Nicht zu verwechseln mit "hoher Dimensionalität".)

56
Herausforderungen zwischen Industrie und Kaggle. Ist es wichtiger, mehr Beobachtungen zu sammeln und Zugang zu mehr Variablen zu haben als ausgefallene Modelle?

Ich hoffe der Titel ist selbsterklärend. In Kaggle verwenden die meisten Gewinner das Stapeln mit manchmal Hunderten von Basismodellen, um ein paar Prozent mehr MSE und Genauigkeit zu erzielen. Generell ist es Ihrer Erfahrung nach wichtig, ausgefallene Modelle wie das Stapeln und nicht nur mehr...

44
Was genau ist Big Data?

Mir wurde mehrmals die Frage gestellt: Was ist Big-Data? Sowohl von Schülern als auch von meinen Verwandten, die das Rummel um Statistiken und ML aufgreifen. Ich habe diesen Lebenslauf gefunden . Und ich habe das Gefühl, dass ich der einzigen Antwort dort zustimme. Die Wikipedia-Seite...

25
Hochmodernes Streaming-Lernen

Ich habe in letzter Zeit mit großen Datenmengen gearbeitet und viele Artikel über Streaming-Methoden gefunden. Um ein paar zu nennen: Follow-the-Regularized-Leader und Mirror-Descent: Äquivalenzsätze und L1-Regularisierung ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf...

21
Erster Schritt für Big Data ( , )

Angenommen, Sie analysieren einen riesigen Datensatz mit Milliarden von Beobachtungen pro Tag, wobei jede Beobachtung einige Tausend spärliche und möglicherweise redundante numerische und kategoriale Variablen enthält. Angenommen, es gibt ein Regressionsproblem, ein Problem der unausgeglichenen...

21
Wie projiziert man einen neuen Vektor auf den PCA-Raum?

Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren...

18
Out-of-Core-Datenanalyseoptionen

Ich benutze SAS seit fast 5 Jahren professionell. Ich habe es auf meinem Laptop installiert und muss häufig Datensätze mit 1.000 bis 2.000 Variablen und Hunderttausenden von Beobachtungen analysieren. Ich habe nach Alternativen zu SAS gesucht, mit denen ich Analysen mit ähnlich großen Datensätzen...