Ich arbeite an ziemlich vielen statistischen Modellen wie Hidden Markov Models und Gaussian Mixture Models. Ich sehe, dass für das Training guter Modelle in jedem dieser Fälle eine große Datenmenge (> 20000 Sätze für HMMs) erforderlich ist, die aus ähnlichen Umgebungen wie die endgültige Verwendung stammt. Meine Frage ist:
- Gibt es in der Literatur ein Konzept für "genügend" Trainingsdaten? Wie viele Trainingsdaten sind "gut genug"?
- Wie kann ich berechnen, wie viele Sätze benötigt werden, um "gute" Modelle (die eine gute Erkennungsgenauigkeit (> 80%) ergeben) zu trainieren?
- Woher weiß ich, ob ein Modell richtig trainiert wurde? Werden die Koeffizienten im Modell zufällige Schwankungen aufweisen? Wenn ja, wie unterscheide ich zufällige Schwankungen und reale Änderungen aufgrund von Modellaktualisierungen?
Bitte zögern Sie nicht, diese Frage erneut zu markieren, falls weitere Tags benötigt werden.