Online skalierbare statistische Methoden

12

Dies wurde durch eine effiziente lineare Online-Regression inspiriert , die ich sehr interessant fand. Gibt es Texte oder Ressourcen, die für statistische Berechnungen in großem Maßstab vorgesehen sind, bei denen die Datenmengen zu groß sind, um in den Hauptspeicher zu passen, und die möglicherweise zu unterschiedlich sind, um eine effektive Unterabtastung durchzuführen? Ist es beispielsweise möglich, Modelle mit gemischten Effekten online anzupassen? Hat jemand die Auswirkungen des Ersetzens der Standardoptimierungstechniken 2. Ordnung für MLE durch SGD-Techniken 1. Ordnung untersucht?

grg s
quelle
Ich denke die Antwort ist "Ja". Natürlich gibt es hier ein paar Definitionen. Was eine Person als "großräumig" ansieht, unterscheidet sich manchmal sehr von anderen. Mein Eindruck ist, dass z. B. viele akademische Forscher den Netflix-Datensatz als "großräumig" betrachten, während er in vielen industriellen Umgebungen als "mickrig" eingestuft wird. In Bezug auf Schätztechniken, in der Regel mit sehr großen Datenmengen, übertrifft die Recheneffizienz die statistische Effizienz. Zum Beispiel wird die Methode von Momenten in vielen Fällen (fast) so gut wie MLE in diesen Einstellungen sein und kann viel einfacher zu berechnen sein.
Kardinal
2
Sie können auch den Workshop zu Algorithmen für moderne Massendatensätze (MMDS) nachschlagen. Es ist jung, zieht aber eine ziemlich beeindruckende Gruppe von Rednern an den Schnittstellen von Statistik, Ingenieurwesen und Informatik sowie zwischen Wissenschaft und Industrie an.
Kardinal
Es ist nur ein paar Jahrzehnte her, dass die meisten Datensätze zu groß waren, um in den Hauptspeicher zu passen, und die Auswahl der Algorithmen, die in frühen Statistikprogrammen verwendet wurden, spiegelte dies wider. Solche Programme hatten jedoch keine Möglichkeiten für Mixed-Effects-Modelle.
Onestop
Können Sie Statistiken für den Datensatz berechnen? Sagen Sie zum Beispiel die Summe oder den Durchschnitt von Datenelementen?
Wahrscheinlichkeitslogik

Antworten:

5

Vielleicht werfen Sie einen Blick auf das Vowpal Wabbit-Projekt von John Langford auf Yahoo! Forschung . Es ist ein Online-Lerner, der sich auf einige Verlustfunktionen spezialisiert hat. VW hat einige Killer-Features:

  • Lässt sich trivial auf Ubuntu installieren, mit "sudo apt-get install vowpal-wabbit".
  • Verwendet den Hashing-Trick für sehr große Feature-Spaces.
  • Merkmalsspezifische adaptive Gewichte.
  • Vor allem gibt es eine aktive Mailingliste und eine Community, die sich um das Projekt kümmert.

Das Buch Prediction, Learning and Games von Bianchi & Lugosi bietet eine solide theoretische Grundlage für das Online-Lernen. Viel gelesen, aber es lohnt sich!

Someben
quelle