In Bezug auf das Testen von Hypothesen erfolgt das Schätzen der Stichprobengröße durch Leistung, und es ist intuitiv, dass das Erhöhen derselben Größe die Genauigkeit der geschätzten Effekte erhöht. Aber was ist mit der Vorhersage sowohl für die Klassifikation als auch für die Regression? Welche Aspekte des Vorhersageproblems werden von der Stichprobengröße beeinflusst, außer der Schätzung des Generalisierungsfehlers oder des RMSE für die Regression.
Zusammenfassend unterscheiden sich Eigenschaften, die zur Leistung in der Einstellung zum Testen von Hypothesen beitragen, von denen, die eine erfolgreiche Vorhersage durch bestrafte Regression / Data Mining / algorithmische Modellierung ermöglichen. Wie beeinflusst die Stichprobengröße den Erfolg dieser Techniken?
Ein Artikel, der diese Idee beschreibt, ist dieser .
Kann jemand Referenzen für ihre Kommentare angeben? Vielen Dank.
Antworten:
Grundsätzlich denke ich, dass Sie intuitiv fragen, wie sich die Stichprobengröße auf Techniken des maschinellen Lernens auswirkt. Der eigentliche Faktor, der die erforderlichen Stichprobengrößen beeinflusst, ist die Dimensionalität des Raums, in dem Daten leben, und seine Spärlichkeit. Ich werde Ihnen zwei Beispiele geben, weil es mir schwer fällt, alles in einem zusammenzufassen ...
Angenommen, Sie haben einige dichte Daten und versuchen, ein Modell mithilfe einer Regression anzupassen. Wenn die Daten einem Polynom vom Grad folgen , benötigen Sie mehr als Daten, damit Ihr Algorithmus die richtige Kurve finden kann. Andernfalls wird ein zu stark vereinfachtes Modell erstellt, das sich von der Realität unterscheidet. In der Realität wird es natürlich Rauschen geben, sodass Sie noch mehr Daten benötigen, um ein besseres Modell zu erstellen.nn n
Angenommen, Sie haben einige spärliche Daten, dh die meisten Dimensionen sind Nullen. Ein solches Beispiel ist Text wie Tweets oder SMS (vergessen Sie vorerst Bücher), bei dem die Häufigkeit jedes Wortes eine Dimension ist und Dokumente natürlich nicht die Mehrheit der Wörter im Wörterbuch enthalten (spärlicher Platz). Sie versuchen, Tweets anhand ihres Themas zu klassifizieren. Algorithmen wie kNN, SVMs usw. arbeiten mit Ähnlichkeiten zwischen Stichproben, z. B. findet 1-NN den Tweet im Trainingssatz, der demjenigen am nächsten kommt, den Sie zu klassifizieren versuchen, und weist das entsprechende Label zu. Wegen der Kargheit ... raten Sie mal ... die meisten Ähnlichkeiten sind Null! Einfach, weil Dokumente nicht genug Wörter enthalten. Um Vorhersagen treffen zu können, benötigen Sie genügend Daten, damit etwas in Ihrem Trainingssatz den unbekannten Dokumenten ähnelt, die Sie zu klassifizieren versuchen.
quelle
Ich verstehe die Frage nicht ganz. Im Allgemeinen ergibt eine größere Stichprobe (zum Beispiel) eine bessere Klassifizierung. Es sei denn, größer bedeutet Beobachtungen von schlechter Qualität. Eine kleine Stichprobe macht viele Modelle unbrauchbar. Da baumbasierte Modelle beispielsweise eine Art "Divde and Conquer" -Ansatz darstellen, hängt ihre Effizienz stark von der Größe der Trainingsstichprobe ab.
Wenn Sie sich andererseits für statistisches Lernen in hohen Dimensionen interessieren, hat Ihr Anliegen meiner Meinung nach mehr mit dem Fluch der Dimensionalität zu tun. Wenn Ihre Stichprobengröße "klein" ist und Ihr Funktionsbereich eine "hohe" Dimension aufweist, verhalten sich Ihre Daten so, als wären sie spärlich, und die meisten Algorithmen haben eine schreckliche Zeit damit, einen Sinn daraus zu ziehen. Zitat von John A. Richards in der digitalen Bildanalyse mit Fernerkundung:
Dies würde bedeuten, dass das Problem zweifach ist und relevante Merkmale und die von Ihnen erwähnte Samp-Größe gefunden werden. Ab sofort können Sie das Buch kostenlos herunterladen, wenn Sie es bei Google suchen.
Eine andere Möglichkeit, Ihre Frage zu lesen, die mich besonders interessiert, wäre folgende: Beim überwachten Lernen können Sie Ihre Modelle anhand von Testdaten nur durch Kreuzvalidierung wirklich validieren und was nicht. Wenn die beschriftete Probe, aus der Sie Ihre Zug- / Testproben erhalten haben, Ihr Universum nicht gut darstellt, gelten die Validierungsergebnisse möglicherweise nicht für Ihr Universum. Wie können Sie die Repräsentativität Ihrer etikettierten Stichprobe messen?
quelle