Online skalierbare statistische Methoden

Dies wurde durch eine effiziente lineare Online-Regression inspiriert , die ich sehr interessant fand. Gibt es Texte oder Ressourcen, die für statistische Berechnungen in großem Maßstab vorgesehen sind, bei denen die Datenmengen zu groß sind, um in den Hauptspeicher zu passen, und die möglicherweise zu unterschiedlich sind, um eine effektive Unterabtastung durchzuführen? Ist es beispielsweise möglich, Modelle mit gemischten Effekten online anzupassen? Hat jemand die Auswirkungen des Ersetzens der Standardoptimierungstechniken 2. Ordnung für MLE durch SGD-Techniken 1. Ordnung untersucht?

online computing references grg s
quelle

Ich denke die Antwort ist "Ja". Natürlich gibt es hier ein paar Definitionen. Was eine Person als "großräumig" ansieht, unterscheidet sich manchmal sehr von anderen. Mein Eindruck ist, dass z. B. viele akademische Forscher den Netflix-Datensatz als "großräumig" betrachten, während er in vielen industriellen Umgebungen als "mickrig" eingestuft wird. In Bezug auf Schätztechniken, in der Regel mit sehr großen Datenmengen, übertrifft die Recheneffizienz die statistische Effizienz. Zum Beispiel wird die Methode von Momenten in vielen Fällen (fast) so gut wie MLE in diesen Einstellungen sein und kann viel einfacher zu berechnen sein.

Kardinal

Sie können auch den Workshop zu Algorithmen für moderne Massendatensätze (MMDS) nachschlagen. Es ist jung, zieht aber eine ziemlich beeindruckende Gruppe von Rednern an den Schnittstellen von Statistik, Ingenieurwesen und Informatik sowie zwischen Wissenschaft und Industrie an.

Kardinal

Es ist nur ein paar Jahrzehnte her, dass die meisten Datensätze zu groß waren, um in den Hauptspeicher zu passen, und die Auswahl der Algorithmen, die in frühen Statistikprogrammen verwendet wurden, spiegelte dies wider. Solche Programme hatten jedoch keine Möglichkeiten für Mixed-Effects-Modelle.

Onestop

Können Sie Statistiken für den Datensatz berechnen? Sagen Sie zum Beispiel die Summe oder den Durchschnitt von Datenelementen?

Wahrscheinlichkeitslogik

Online skalierbare statistische Methoden

Antworten: