Stichprobengröße in Bezug auf Vorhersage in Klassifikation und Regression

In Bezug auf das Testen von Hypothesen erfolgt das Schätzen der Stichprobengröße durch Leistung, und es ist intuitiv, dass das Erhöhen derselben Größe die Genauigkeit der geschätzten Effekte erhöht. Aber was ist mit der Vorhersage sowohl für die Klassifikation als auch für die Regression? Welche Aspekte des Vorhersageproblems werden von der Stichprobengröße beeinflusst, außer der Schätzung des Generalisierungsfehlers oder des RMSE für die Regression.

Zusammenfassend unterscheiden sich Eigenschaften, die zur Leistung in der Einstellung zum Testen von Hypothesen beitragen, von denen, die eine erfolgreiche Vorhersage durch bestrafte Regression / Data Mining / algorithmische Modellierung ermöglichen. Wie beeinflusst die Stichprobengröße den Erfolg dieser Techniken?

Ein Artikel, der diese Idee beschreibt, ist dieser .

Kann jemand Referenzen für ihre Kommentare angeben? Vielen Dank.

classification sample-size prediction Juli
quelle

Nicht wirklich klar, was Sie hier suchen, nicht zuletzt sind das Hausaufgaben? Eine Sache, die nicht in den Formeln enthalten ist, ist, dass wirklich große Datensätze größere Probleme hinsichtlich Heterogenität, Datenqualität und fehlenden Werten mit sich bringen können. Die Argumente werden in Diskussionen über die relativen Vorzüge nationaler Volkszählungen im Vergleich zu streng kontrollierten Stichprobenerhebungen sichtbar.

Nick Cox

Ich habe einige Details hinzugefügt. Ich bin seit Jahren nicht mehr in der Schule, also keine Hausaufgaben!

20.

"Größere Probleme der Heterogenität, Datenqualität und fehlenden Werte": Wenn der kleine Datensatz homogener ist, ist die Verallgemeinerung (Extrapolation auf die vom großen Datensatz abgedeckten Situationen) fraglich / schlecht. Mit anderen Worten: Sie können sich an den kleinen Datensatz anpassen. (Es sei denn, groß impliziert einen Kompromiss zwischen [Signal-] Qualität)

Ungläubige, die mit SX am

Es sind einige Maßnahmen zu berücksichtigen, darunter Fehler, Verallgemeinerung, Sparsamkeit, erforderliche Rechenoperationen und erforderliche Speichergröße. Wenn ich mir das anschaue, sehe ich zwei bekannte Werte: Leistung und Kosten. Bei Generalisierung, Form und Fehler geht es um die Leistung nach dem Anpassen. Sie sind die Auszahlung. Rechenzeit, Codekomplexität und Speichergröße bestimmen, wie schwierig es ist, die Daten durch das Modell zu codieren, zu debuggen und auszuführen. Sie sind über die Kosten. Wenn man über "Einfluss" nachdenkt, führt jeder Einfluss zu diesen beiden Maßnahmen, oder er existiert nicht.

EngrStudent

Antworten:

Grundsätzlich denke ich, dass Sie intuitiv fragen, wie sich die Stichprobengröße auf Techniken des maschinellen Lernens auswirkt. Der eigentliche Faktor, der die erforderlichen Stichprobengrößen beeinflusst, ist die Dimensionalität des Raums, in dem Daten leben, und seine Spärlichkeit. Ich werde Ihnen zwei Beispiele geben, weil es mir schwer fällt, alles in einem zusammenzufassen ...

Angenommen, Sie haben einige dichte Daten und versuchen, ein Modell mithilfe einer Regression anzupassen. Wenn die Daten einem Polynom vom Grad folgen , benötigen Sie mehr als Daten, damit Ihr Algorithmus die richtige Kurve finden kann. Andernfalls wird ein zu stark vereinfachtes Modell erstellt, das sich von der Realität unterscheidet. In der Realität wird es natürlich Rauschen geben, sodass Sie noch mehr Daten benötigen, um ein besseres Modell zu erstellen. $n$ $n$
Angenommen, Sie haben einige spärliche Daten, dh die meisten Dimensionen sind Nullen. Ein solches Beispiel ist Text wie Tweets oder SMS (vergessen Sie vorerst Bücher), bei dem die Häufigkeit jedes Wortes eine Dimension ist und Dokumente natürlich nicht die Mehrheit der Wörter im Wörterbuch enthalten (spärlicher Platz). Sie versuchen, Tweets anhand ihres Themas zu klassifizieren. Algorithmen wie kNN, SVMs usw. arbeiten mit Ähnlichkeiten zwischen Stichproben, z. B. findet 1-NN den Tweet im Trainingssatz, der demjenigen am nächsten kommt, den Sie zu klassifizieren versuchen, und weist das entsprechende Label zu. Wegen der Kargheit ... raten Sie mal ... die meisten Ähnlichkeiten sind Null! Einfach, weil Dokumente nicht genug Wörter enthalten. Um Vorhersagen treffen zu können, benötigen Sie genügend Daten, damit etwas in Ihrem Trainingssatz den unbekannten Dokumenten ähnelt, die Sie zu klassifizieren versuchen.

iliasfl
quelle

Ich verstehe die Frage nicht ganz. Im Allgemeinen ergibt eine größere Stichprobe (zum Beispiel) eine bessere Klassifizierung. Es sei denn, größer bedeutet Beobachtungen von schlechter Qualität. Eine kleine Stichprobe macht viele Modelle unbrauchbar. Da baumbasierte Modelle beispielsweise eine Art "Divde and Conquer" -Ansatz darstellen, hängt ihre Effizienz stark von der Größe der Trainingsstichprobe ab.

Wenn Sie sich andererseits für statistisches Lernen in hohen Dimensionen interessieren, hat Ihr Anliegen meiner Meinung nach mehr mit dem Fluch der Dimensionalität zu tun. Wenn Ihre Stichprobengröße "klein" ist und Ihr Funktionsbereich eine "hohe" Dimension aufweist, verhalten sich Ihre Daten so, als wären sie spärlich, und die meisten Algorithmen haben eine schreckliche Zeit damit, einen Sinn daraus zu ziehen. Zitat von John A. Richards in der digitalen Bildanalyse mit Fernerkundung:

Funktionsreduzierung und Trennbarkeit

Die Klassifizierungskosten steigen mit der Anzahl der Merkmale, die zur Beschreibung von Pixelvektoren im multispektralen Raum verwendet werden - dh mit der Anzahl der einem Pixel zugeordneten Spektralbänder. Für Klassifizierer wie das Parallelepiped-Verfahren und das Verfahren mit minimalem Abstand ist dies eine lineare Zunahme mit Merkmalen. Für die Maximum-Likelihood-Klassifizierung, das am häufigsten bevorzugte Verfahren, ist der Kostenanstieg mit Merkmalen jedoch quadratisch. Daher ist es wirtschaftlich sinnvoll sicherzustellen, dass bei der Durchführung einer Klassifizierung nicht mehr Merkmale als erforderlich verwendet werden. In Abschnitt 8.2.6 wird auf die Anzahl der Trainingspixel hingewiesen, die erforderlich sind, um zuverlässige Schätzungen der Klassenzeichen zu erhalten. Insbesondere nimmt die Anzahl der erforderlichen Trainingspixel mit der Anzahl der Bänder oder Kanäle in den Daten zu. Für Daten mit hoher Dimensionalität Wie bei Bildgebungsspektrometern stellt diese Anforderung in der Praxis eine ziemliche Herausforderung dar. Daher ist es wichtig, die Anzahl der in einer Klassifizierung verwendeten Merkmale so gering wie möglich zu halten, wenn zuverlässige Ergebnisse von einer erschwinglichen Anzahl von Trainingspixeln erwartet werden sollen. Merkmale, die die Diskriminierung nicht unterstützen, indem sie wenig zur Trennbarkeit von Spektralklassen beitragen, sollten verworfen werden. Das Entfernen von am wenigsten wirksamen Merkmalen wird als Merkmalsauswahl bezeichnet, wobei dies eine Form der Merkmalsreduzierung ist. Die andere besteht darin, den Pixelvektor in einen neuen Satz von Koordinaten umzuwandeln, in denen die Merkmale, die entfernt werden können, deutlicher werden. Beide Verfahren werden in diesem Kapitel ausführlich behandelt. Daher ist es wichtig, die Anzahl der in einer Klassifizierung verwendeten Merkmale so gering wie möglich zu halten, wenn zuverlässige Ergebnisse von einer erschwinglichen Anzahl von Trainingspixeln erwartet werden sollen. Merkmale, die die Diskriminierung nicht unterstützen, indem sie wenig zur Trennbarkeit von Spektralklassen beitragen, sollten verworfen werden. Das Entfernen von am wenigsten wirksamen Merkmalen wird als Merkmalsauswahl bezeichnet, wobei dies eine Form der Merkmalsreduzierung ist. Die andere besteht darin, den Pixelvektor in einen neuen Satz von Koordinaten umzuwandeln, in denen die Merkmale, die entfernt werden können, deutlicher werden. Beide Verfahren werden in diesem Kapitel ausführlich behandelt. Daher ist es wichtig, die Anzahl der in einer Klassifizierung verwendeten Merkmale so gering wie möglich zu halten, wenn zuverlässige Ergebnisse von einer erschwinglichen Anzahl von Trainingspixeln erwartet werden sollen. Merkmale, die die Diskriminierung nicht unterstützen, indem sie wenig zur Trennbarkeit von Spektralklassen beitragen, sollten verworfen werden. Das Entfernen von am wenigsten wirksamen Merkmalen wird als Merkmalsauswahl bezeichnet, wobei dies eine Form der Merkmalsreduzierung ist. Die andere besteht darin, den Pixelvektor in einen neuen Satz von Koordinaten umzuwandeln, in denen die Merkmale, die entfernt werden können, deutlicher werden. Beide Verfahren werden in diesem Kapitel ausführlich behandelt. sollte verworfen werden. Das Entfernen von am wenigsten wirksamen Merkmalen wird als Merkmalsauswahl bezeichnet, wobei dies eine Form der Merkmalsreduzierung ist. Die andere besteht darin, den Pixelvektor in einen neuen Satz von Koordinaten umzuwandeln, in denen die Merkmale, die entfernt werden können, deutlicher werden. Beide Verfahren werden in diesem Kapitel ausführlich behandelt. sollte verworfen werden. Das Entfernen von am wenigsten wirksamen Merkmalen wird als Merkmalsauswahl bezeichnet, wobei dies eine Form der Merkmalsreduzierung ist. Die andere besteht darin, den Pixelvektor in einen neuen Satz von Koordinaten umzuwandeln, in denen die Merkmale, die entfernt werden können, deutlicher werden. Beide Verfahren werden in diesem Kapitel ausführlich behandelt.

Dies würde bedeuten, dass das Problem zweifach ist und relevante Merkmale und die von Ihnen erwähnte Samp-Größe gefunden werden. Ab sofort können Sie das Buch kostenlos herunterladen, wenn Sie es bei Google suchen.

Eine andere Möglichkeit, Ihre Frage zu lesen, die mich besonders interessiert, wäre folgende: Beim überwachten Lernen können Sie Ihre Modelle anhand von Testdaten nur durch Kreuzvalidierung wirklich validieren und was nicht. Wenn die beschriftete Probe, aus der Sie Ihre Zug- / Testproben erhalten haben, Ihr Universum nicht gut darstellt, gelten die Validierungsergebnisse möglicherweise nicht für Ihr Universum. Wie können Sie die Repräsentativität Ihrer etikettierten Stichprobe messen?

JEquihua
quelle

Schichten sind ein guter Weg, um die Repräsentativität zu messen. Das Einbeziehen dieser in ein gemischtes Modell mit einer von REML geschätzten Varianz ist eine gute Möglichkeit, die Unsicherheit über fehlende Schichten in Ihre Vorhersagen einzubeziehen.

Wahrscheinlichkeitslogik

Können Sie eine Bibliographie zu Edwin Jaynes und "Wahrscheinlichkeit als erweiterte Logik" empfehlen? Schöne Grüße!

JEquihua

Diese Website ist ein guter Anfang

Wahrscheinlichkeitslogik