Stichprobengröße für logistische Regression?

26

Ich möchte aus meinen Umfragedaten ein logistisches Modell erstellen. Es handelt sich um eine kleine Umfrage unter vier Wohnkolonien, bei der nur 154 Befragte befragt wurden. Meine abhängige Variable ist "zufriedenstellender Übergang zur Arbeit". Ich fand heraus, dass von den 154 Befragten 73 sagten, dass sie zufriedenstellend zur Arbeit übergegangen sind, während der Rest dies nicht tat. Die abhängige Variable ist also binärer Natur und ich habe mich für die logistische Regression entschieden. Ich habe sieben unabhängige Variablen (drei kontinuierliche und vier nominelle). Einer Richtlinie zufolge sollte es für jeden Prädiktor / jede unabhängige Variable 10 Fälle geben (Agresti, 2007). Aufgrund dieser Richtlinie halte ich es für in Ordnung, eine logistische Regression durchzuführen.

Habe ich recht? Wenn nicht, lassen Sie mich bitte wissen, wie die Anzahl der unabhängigen Variablen zu bestimmen ist.

Braj-Stat
quelle
3
Ich habe die Faustregel "10 Fälle für jeden Prädiktor" nie wirklich verstanden (und leider habe ich keinen Zugang zu dem von Agresti verfassten Buch). Was ich meine ist: Wenn ich 100 Probanden habe, von denen 10 Fälle (die 1) und 90 Nicht-Fälle (die 0) sind, lautet die Regel "nur 1 Prädiktor einschließen". Aber was ist, wenn ich die 0s anstelle der 1s modelliere und dann den Kehrwert der geschätzten Quotenverhältnisse nehme? Darf ich 9 Prädiktoren einschließen? Das ergibt für mich keinen Sinn.
Boscovich
Liebe Andrea, ich habe dasselbe gesagt, was du meinst. Von 154 Befragten gibt es 73 Fälle (die Einsen und die restlichen Nullen). Könnten Sie etwas Licht auf meine Frage werfen. Danke!
Braj-Stat
4
In einem Kommentar habe ich gelesen, dass man auf das Minimum der Anzahl von Ereignissen und Nicht-Ereignissen achten muss. Im Beispiel von 10/100 erhalten Sie also einen Prädiktor, unabhängig davon, wie Sie ihn codieren.
PSJ
@psj das klingt vernünftig. Haben Sie Referenzen?
Boscovich
1
Es gibt hier eine verwandte Diskussion: Mindestanzahl von Beobachtungen für logistische Regression .
gung - Wiedereinsetzung von Monica

Antworten:

25

Hier gibt es mehrere Probleme.

In der Regel möchten wir eine minimale Stichprobengröße festlegen, um eine minimal akzeptable statistische Leistung zu erzielen . Die erforderliche Stichprobengröße hängt von mehreren Faktoren ab, in erster Linie von der Stärke des Effekts, den Sie von 0 unterscheiden möchten (oder von der Null, die Sie verwenden, aber am häufigsten von 0), und von der minimalen Wahrscheinlichkeit, diesen Effekt aufzufangen will haben. Aus dieser Perspektive wird die Stichprobengröße durch eine Leistungsanalyse bestimmt.

Eine weitere Überlegung ist die Stabilität Ihres Modells (wie @cbeleites feststellt). Im Grunde genommen als das Verhältnis der Parameter auf die Anzahl von Daten geschätzt wird nahe 1, Modell gesättigt werden wird, und wird notwendigerweise sein Überanpassung (es sei denn , es gibt in der Tat keine Zufälligkeit im System). Die Faustregel des Verhältnisses 1 zu 10 ergibt sich aus dieser Perspektive. Beachten Sie, dass eine ausreichende Leistung in der Regel dieses Problem für Sie abdeckt, nicht jedoch umgekehrt.

Die 1 bis 10-Regel stammt jedoch aus der Welt der linearen Regression, und es ist wichtig zu erkennen, dass die logistische Regression zusätzliche Komplexitäten aufweist. Ein Problem ist, dass die logistische Regression am besten funktioniert, wenn der Prozentsatz der Einsen und Nullen ungefähr 50% / 50% beträgt (wie in den obigen Kommentaren unter @andrea und @psj erläutert). Ein weiteres Problem ist die Trennung . Das heißt, Sie möchten nicht, dass sich alle Ihre Einsen auf einem Extrem einer unabhängigen Variablen (oder einer Kombination davon) und alle Nullen auf dem anderen Extrem befinden. Dies scheint zwar eine gute Situation zu sein, da dies eine perfekte Vorhersage erleichtern würde, führt jedoch tatsächlich dazu, dass der Parameterschätzungsprozess in die Luft sprengt. (@Scortchi hat hier eine ausgezeichnete Diskussion darüber, wie man mit Trennung in logistischen Regressionen umgeht:Wie gehe ich mit perfekter Trennung in der logistischen Regression um? ) Mit mehr Infusionen wird dies wahrscheinlicher, selbst wenn die tatsächlichen Größen der Effekte konstant gehalten werden, und insbesondere, wenn Ihre Reaktionen unausgewogen sind. Somit können Sie problemlos mehr als 10 Daten pro IV benötigen.

Ein letztes Problem mit dieser Faustregel ist, dass davon ausgegangen wird, dass Ihre Infusionen orthogonal sind . Dies ist für geplante Experimente sinnvoll, aber bei Beobachtungsstudien wie Ihrer sind Ihre IVs fast nie ungefähr orthogonal. Es gibt Strategien, um mit dieser Situation umzugehen (z. B. IVs kombinieren oder löschen, zuerst eine Hauptkomponentenanalyse durchführen usw.). Wenn dies jedoch nicht behoben wird (was häufig vorkommt), benötigen Sie mehr Daten.

Eine vernünftige Frage ist dann, wie hoch Ihr Minimum an N sein sollte und / oder ob Ihre Stichprobengröße ausreicht. Um dies zu beheben, empfehle ich Ihnen, die von @cbeleites diskutierten Methoden zu verwenden. Sich auf die 1 bis 10-Regel zu verlassen, ist nicht ausreichend.

gung - Wiedereinsetzung von Monica
quelle
6
Können Sie eine Referenz für die Aussage "Ein Problem ist, dass die logistische Regression am besten funktioniert, wenn der Prozentsatz der Einsen und Nullen ungefähr 50% / 50% beträgt"? Ich habe mich selbst darüber gewundert, da ich einen Datensatz habe, der sehr weit von 50/50 entfernt ist, und ich frage mich, welche Auswirkungen dies haben könnte. (Entschuldigung, den Thread wiederzubeleben)
Trevor
3
Ich sehe kein Problem damit, einen alten Thread wiederzubeleben, wenn es angebracht ist, @Trevor. Ich denke , was Sie suchen ist etwas entlang der Linien dieser netten Antwort von Konjugat vor: does-an-unausgeglichen-Probe-Materie-wenn-doing-Logistik-Regression .
gung - Wiedereinsetzung von Monica
2
+1 auf Trevors Frage. Ich glaube, dass die logistische Regression weiterhin von neuen Daten profitieren wird, auch wenn es sich um dieselben Daten handelt (trotz sinkender Renditen). Das hat mich an Techniken des maschinellen Lernens wie zufälligen Wäldern gestört - dass sie durch Hinzufügen relevanterer Trainingsdaten noch schlimmer werden können. Vielleicht gibt es einen Punkt, an dem die logistische Regression aufgrund numerischer Überlegungen zusammenbricht, wenn das Ungleichgewicht zu stark wird. Wäre daran interessiert, mehr darüber zu erfahren.
Ben Ogorek
+1, vielleicht impliziert dies Ihre Antwort. Ich bin mir nicht sicher, aber ich frage mich, wie dies für kategoriale Variablen mit verschiedenen Ebenen funktioniert. Wäre es empfehlenswert, 10 Beobachtungen pro Level zu machen?
Baxx
1
Es ist eine Faustregel, @baxx, aber ja, um mehr als nur die Prozentsätze abzuschätzen, müssten Sie mindestens 45 sein.
gung - Setzen Sie Monica wieder ein
16

Ich verwende normalerweise eine 15: 1-Regel (Verhältnis von min (Ereignissen, Nichtereignissen) zur Anzahl der Kandidatenparameter im Modell). Neuere Arbeiten ergaben, dass für eine strengere Validierung 20: 1 erforderlich sind. Weitere Informationen finden Sie in meinen Kursunterlagen, die unter http://biostat.mc.vanderbilt.edu/rms verlinkt sind , insbesondere ein Argument für eine Mindeststichprobengröße von 96, nur um den Achsenabschnitt abzuschätzen. Die Anforderungen an die Stichprobengröße sind jedoch differenzierter, und eine noch aktuellere Veröffentlichung geht darauf umfassender ein.

Frank Harrell
quelle
14

In der Regel zu wenige Fälle wrt. Die Modellkomplexität (Anzahl der Parameter) bedeutet, dass die Modelle instabil sind . Wenn Sie also wissen möchten, ob die Stichprobengröße / Modellkomplexität in Ordnung ist, prüfen Sie, ob Sie ein einigermaßen stabiles Modell erhalten.

Es gibt (mindestens) zwei verschiedene Arten von Instabilität:

  1. Die Modellparameter variieren stark mit nur geringfügigen Änderungen der Trainingsdaten.

  2. Die Vorhersagen (für den gleichen Fall) von Modellen, die mit geringfügigen Änderungen der Trainingsdaten trainiert wurden, variieren stark.

Sie können 1. messen, indem Sie nachsehen, wie stark Ihre Modellkoeffizienten variieren, wenn die Trainingsdaten leicht gestört sind. Eine geeignete Reihe von Modellen kann z. B. während eines Bootstraps oder (iterierter) Kreuzvalidierungsprozeduren berechnet werden.

Bei einigen Arten von Modellen oder Problemen bedeuten unterschiedliche Parameter keine unterschiedlichen Vorhersagen. Sie können die 2. Instabilität direkt überprüfen, indem Sie die Variation der Vorhersagen für denselben Fall (unabhängig davon, ob sie korrekt sind oder nicht) betrachten, die während der Out-of-Bootstrap- oder iterierten Kreuzvalidierung berechnet wurden.

cbeleites unterstützt Monica
quelle
5

Es gibt keine strengen Regeln, aber Sie können alle unabhängigen Variablen einschließen, solange die nominalen Variablen nicht zu viele Kategorien haben. Sie benötigen eine "Beta" für alle, mit Ausnahme einer der Klassen für jede Nominalvariable. Wenn also eine nominelle Variable "Arbeitsbereich" lautet und Sie 30 Bereiche haben, dann benötigen Sie 29 Betas.

Eine Möglichkeit, dieses Problem zu lösen, besteht darin, die Betas zu regulieren - oder große Koeffizienten zu bestrafen. Dies hilft sicherzustellen, dass Ihr Modell die Daten nicht überfüllt. L2- und L1-Regularisierung sind beliebte Optionen.

Ein weiteres zu berücksichtigendes Problem ist die Repräsentativität Ihrer Stichprobe. Aus welcher Population möchten Sie einen Rückschluss ziehen? Haben Sie all die verschiedenen Arten von Menschen in der Stichprobe, die es in der Bevölkerung gibt? Es wird schwierig sein, genaue Schlüsse zu ziehen, wenn Ihre Stichprobe "Löcher" aufweist (z. B. keine Frauen im Alter von 35 bis 50 Jahren in der Stichprobe oder keine Arbeiter mit hohem Einkommen usw.).

Wahrscheinlichkeitslogik
quelle
4

Hier ist die eigentliche Antwort von der MedCalc-Website, über die user41466 geschrieben hat

http://www.medcalc.org/manual/logistic_regression.php

Überlegungen zur Stichprobengröße

Die Berechnung der Stichprobengröße für die logistische Regression ist ein komplexes Problem, basiert jedoch auf der Arbeit von Peduzzi et al. (1996) kann die folgende Richtlinie für eine Mindestanzahl von Fällen vorgeschlagen werden, die in Ihre Studie aufgenommen werden sollen. Sei p der kleinste der Anteile von negativen oder positiven Fällen in der Population und k die Anzahl der Kovariaten (die Anzahl der unabhängigen Variablen), dann ist die Mindestanzahl der einzuschließenden Fälle: N = 10 k / p Zum Beispiel: Sie Es müssen 3 Kovariaten in das Modell einbezogen werden, und der Anteil der positiven Fälle in der Bevölkerung beträgt 0,20 (20%). Die erforderliche Mindestanzahl von Fällen beträgt N = 10 x 3 / 0,20 = 150. Wenn die resultierende Anzahl unter 100 liegt, sollten Sie sie gemäß Long (1997) auf 100 erhöhen.

Peduzzi P, Concato J., Kemper E., Holford TR, Feinstein AR (1996) Eine Simulationsstudie zur Anzahl der Ereignisse pro Variable in der logistischen Regressionsanalyse. Journal of Clinical Epidemiology 49: 1373 & ndash; 1379.

user2387584
quelle
So ist es die gleiche 10 Fälle pro unabhängige Variable (mit Boden)
Seanv507
1

Ergebnisse aus jedem Logistikmodell mit einer Anzahl von Beobachtungen pro unabhängiger Variable zwischen mindestens fünf und neun sind zuverlässig, insbesondere wenn die Ergebnisse statistisch signifikant sind (Vittinghoff & McCulloch, 2007).

Vittinghoff, E. & McCulloch, CE 2007. Lockerung der Regel von zehn Ereignissen pro Variable in der logistischen und Cox-Regression. American Journal of Epidemiology, 165 (6): 710–718.

user143522
quelle
Beachten Sie, dass es nicht nur um die Anzahl der Beobachtungen pro unabhängiger Variable geht, sondern um die Anzahl der Ereignisse. Bei einer logistischen Regression ist die Anzahl der "Ereignisse" die Anzahl der Fälle in der seltensten der beiden Ergebnisklassen. Das wird nicht mehr als die Hälfte der Anzahl der Gesamtbeobachtungen sein, und in einigen Anwendungen viel weniger.
EdM