Wie groß ist ein Trainingsset?

24

Gibt es eine gängige Methode, um zu bestimmen, wie viele Trainingsmuster erforderlich sind, um einen Klassifikator (in diesem Fall einen LDA) zu trainieren, um eine Mindestgenauigkeit für die Verallgemeinerung des Schwellenwerts zu erhalten?

Ich frage, weil ich die Kalibrierungszeit minimieren möchte, die normalerweise für eine Gehirn-Computer-Schnittstelle erforderlich ist.

Lunat1c
quelle
2
user2030669, @cbeleites Antwort unten ist hervorragend, aber als grobe Faustregel: Sie benötigen mindestens die 6-fache Anzahl von Fällen (Proben) als Funktionen.
BGreene
2
... in jeder Klasse. Ich habe auch Empfehlungen von 5p und 3p / class gesehen.
cbeleites unterstützt Monica am

Antworten:

31

Der Suchbegriff, den Sie suchen, ist "Lernkurve", die die (durchschnittliche) Modellleistung als Funktion der Trainingsstichprobengröße angibt.

Lernkurven hängen von vielen Dingen ab, z

  • Klassifizierungsmethode
  • Komplexität des Klassifikators
  • wie gut die Klassen getrennt sind.

(Ich denke, für LDA mit zwei Klassen können Sie möglicherweise einige theoretische Leistungsberechnungen ableiten, aber die entscheidende Tatsache ist immer, ob Ihre Daten tatsächlich der Annahme entsprechen, dass der COV multivariate Normalwert gleich ist. Ich würde für beide LDA eine Simulation durchführen.) Annahmen und Resampling Ihrer bereits vorhandenen Daten).

n

  • nn=
  • n

    n

Ein weiterer Aspekt, den Sie möglicherweise berücksichtigen müssen, ist, dass es in der Regel nicht ausreicht, einen guten Klassifikator zu trainieren. Sie müssen jedoch auch nachweisen, dass der Klassifikator gut (oder gut genug) ist. Sie müssen daher auch den Stichprobenumfang für die Validierung mit einer bestimmten Genauigkeit planen. Wenn Sie diese Ergebnisse als Bruchteil der Erfolge unter so vielen Testfällen angeben müssen (z. B. Genauigkeit / Präzision / Sensitivität / positiver Vorhersagewert des Herstellers oder Verbrauchers) und die zugrunde liegende Klassifizierungsaufgabe recht einfach ist, kann dies mehr unabhängige Fälle erfordern als das Training von ein gutes Modell.

Als Faustregel für das Training wird die Stichprobengröße normalerweise in Bezug auf die Komplexität des Modells (Anzahl der Fälle: Anzahl der Variationen) diskutiert, während absolute Grenzen für die Größe der Teststichprobe für eine erforderliche Genauigkeit der Leistungsmessung angegeben werden können.

In diesem Artikel erklären wir diese Dinge ausführlicher und erläutern, wie man Lernkurven erstellt:
Beleites, C. und Neugebauer, U. und Bocklitz, T. und Krafft, C. und Popp, J .: Planung der Stichprobengröße für Klassifizierungsmodelle. Anal Chim Acta, 2013, 760, 25 & ndash; 33.
DOI: 10.1016 / j.aca.2012.11.007
akzeptiertes Manuskript auf arXiv: 1211.1323

Dies ist der "Teaser", der ein einfaches Klassifizierungsproblem aufzeigt (wir haben tatsächlich eine einfache Unterscheidung wie diese in unserem Klassifizierungsproblem, aber andere Klassen sind weitaus schwieriger zu unterscheiden): Teaser Mustergröße Planungspapier

Wir haben nicht versucht, auf größere Trainingsstichprobengrößen zu extrapolieren, um festzustellen, wie viel mehr Trainingsfälle erforderlich sind, da die Teststichprobengrößen unser Engpass sind und größere Trainingsstichprobengrößen uns komplexere Modelle konstruieren lassen würden, sodass eine Extrapolation fraglich ist. Für die Art von Datensätzen, die ich habe, würde ich dies iterativ angehen und eine Reihe neuer Fälle messen, um zu zeigen, wie viel sich die Dinge verbessert haben, mehr Fälle messen und so weiter.

Dies mag für Sie anders sein, aber das Papier enthält Literaturhinweise zu Papieren, bei denen eine Extrapolation auf höhere Stichprobengrößen durchgeführt wird, um die erforderliche Anzahl von Stichproben abzuschätzen.

cbeleites unterstützt Monica
quelle
Kann ich mit einem Regularisierungsschema für meine LDA mit einem kleineren Trainingssatz arbeiten?
Lunat1c
1
@ user2036690, Für ein sparsameres Modell (weniger Funktionen) sind weniger Schulungsbeispiele erforderlich. Ein Regularisierungsschema würde die Anzahl der benötigten Stichproben nicht beeinflussen, wenn nur die Auswirkungen weniger wichtiger Merkmale verringert würden. Eine Art von Feature-Rationalisierung kann einen kleineren Trainingssatz ermöglichen
BGreene
1
Die datengesteuerte Merkmalsauswahl erfordert jedoch enorme Stichprobenmengen, da jeder Modellvergleich in Wirklichkeit ein statistischer Test ist. Die Merkmalsauswahl durch Expertenwissen kann jedoch sofort Abhilfe schaffen. @BGreene: Können Sie erläutern, warum die Regularisierung nicht dazu beitragen kann, die Anforderungen an die Stichprobengröße zu reduzieren (z. B. die Berücksichtigung eines Kamms auf einer schlecht konditionierten Kovarianzmatrix)? IMHO kann es keine Wunder bewirken, aber es kann helfen.
cbeleites unterstützt Monica am
Nun, ohne mich auf eine epische Diskussion einzulassen, bezog ich mich eher auf Friedmans Regularisierungsformulierung als auf Kamm oder eine andere bestrafte Regression. In beiden Fällen werden die Koeffizienten jedoch nicht wie bei Lasso auf Null reduziert, sodass die Dimensionalität nicht beeinflusst wird, was sich nicht auf die Stichprobengröße auswirkt, die zur Vermeidung einer schlecht positionierten Matrix erforderlich ist. Entschuldigung, wenn dies zu
schweifen
@BGreene: kein wandern, ich habe zurück gefragt. Die interessante Frage ist: Um wie viel wird die Gesamt-df / -Komplexität reduziert, indem die Koeffizienten datengesteuert auf Null gesetzt werden. Wie auch immer, wir driften in eine andere Geschichte ...
cbeleites unterstützt Monica am
4

Wenn Sie nach der Stichprobengröße für das Training fragen, werden Sie die Daten für die Modellvalidierung zurückhalten. Dies ist ein instabiler Prozess, der eine große Stichprobengröße erfordert. Eine starke interne Validierung mit dem Bootstrap wird häufig bevorzugt. Wenn Sie diesen Pfad auswählen, müssen Sie nur die eine Stichprobengröße berechnen. Wie @cbeleites so schön feststellte, handelt es sich häufig um eine Bewertung "Ereignisse pro Kandidatenvariable". Sie benötigen jedoch mindestens 96 Beobachtungen, um die Wahrscheinlichkeit eines binären Ergebnisses genau vorherzusagen, auch wenn keine zu untersuchenden Merkmale vorhanden sind 0,95 Fehlerquote von 0,1 bei der Schätzung der tatsächlichen Grenzwahrscheinlichkeit von Y = 1].

Es ist wichtig, die richtigen Bewertungsregeln für die Genauigkeitsbewertung zu berücksichtigen (z. B. Brier-Score und Log-Wahrscheinlichkeit / Abweichung). Stellen Sie außerdem sicher, dass Sie Beobachtungen wirklich klassifizieren möchten, anstatt die Wahrscheinlichkeit einer Mitgliedschaft zu schätzen. Letzteres ist fast immer nützlicher, da es eine Grauzone zulässt.

Frank Harrell
quelle