Gibt es ein Konzept von „genug“ Daten, um statistische Modelle zu trainieren?

10

Ich arbeite an ziemlich vielen statistischen Modellen wie Hidden Markov Models und Gaussian Mixture Models. Ich sehe, dass für das Training guter Modelle in jedem dieser Fälle eine große Datenmenge (> 20000 Sätze für HMMs) erforderlich ist, die aus ähnlichen Umgebungen wie die endgültige Verwendung stammt. Meine Frage ist:

  1. Gibt es in der Literatur ein Konzept für "genügend" Trainingsdaten? Wie viele Trainingsdaten sind "gut genug"?
  2. Wie kann ich berechnen, wie viele Sätze benötigt werden, um "gute" Modelle (die eine gute Erkennungsgenauigkeit (> 80%) ergeben) zu trainieren?
  3. Woher weiß ich, ob ein Modell richtig trainiert wurde? Werden die Koeffizienten im Modell zufällige Schwankungen aufweisen? Wenn ja, wie unterscheide ich zufällige Schwankungen und reale Änderungen aufgrund von Modellaktualisierungen?

Bitte zögern Sie nicht, diese Frage erneut zu markieren, falls weitere Tags benötigt werden.

Sriram
quelle

Antworten:

10

Sie können Ihren Datensatz in aufeinanderfolgende Teilmengen mit 10%, 20%, 30%, ..., 100% Ihrer Daten aufteilen und für jede Teilmenge die Varianz Ihrer Schätzgenauigkeit mithilfe der k-fachen Kreuzvalidierung oder des Bootstrappings schätzen. Wenn Sie "genügend" Daten haben, sollte beim Zeichnen der Varianzen eine abnehmende monotone Linie angezeigt werden, die vor 100% ein Plateau erreichen sollte: Durch Hinzufügen weiterer Daten wird die Varianz der Genauigkeit des Schätzers in keiner signifikanten Weise verringert.

Ogrisel
quelle
Ich werde das versuchen müssen. Klingt interessant. Vielen Dank!
Sriram