Ich führe eine binäre logistische Regression mit 3 numerischen Variablen aus. Ich unterdrücke den Achsenabschnitt in meinen Modellen, da die Wahrscheinlichkeit Null sein sollte, wenn alle Eingabevariablen Null sind.
Was ist die minimale Anzahl von Beobachtungen, die ich verwenden sollte?
regression
logistic
user333
quelle
quelle
Antworten:
Es gibt einen Weg, um an einen soliden Ausgangspunkt zu gelangen. Angenommen, es gab keine Kovariaten, sodass der einzige Parameter im Modell der Achsenabschnitt war. Welche Stichprobengröße ist erforderlich, damit die Schätzung des Abschnitts genau genug ist, damit die vorhergesagte Wahrscheinlichkeit mit 95% iger Sicherheit innerhalb von 0,1 der wahren Wahrscheinlichkeit liegt, wenn der wahre Abschnitt in der Nähe von Null liegt? Die Antwort lautet n = 96. Was wäre, wenn es eine Kovariate gäbe, die mit einer Prävalenz von 0,5 binär wäre? Man würde 96 Probanden mit x = 0 und 96 mit x = 1 benötigen, um eine Obergrenze für die Fehlergrenze für die Schätzung von Prob [Y = 1 | zu haben X = x] 0,1 nicht überschreiten. Die allgemeine Formel für die Stichprobengröße, die erforderlich ist, um eine Fehlerquote von bei der Schätzung einer wahren Wahrscheinlichkeit von bei einem Konfidenzniveau von 0,95 zu erreichen, lautetp n = ( 1,96δ p p=0,5n=(1.96δ)2×p(1−p) . Stellen Sie im schlimmsten Fall .p=0.5
quelle
glmnet
dies verwenden, um zu diesem Zeitpunkt den nützlichsten Prädiktor zu finden?Es gibt nicht wirklich eine Mindestanzahl von Beobachtungen. Je mehr Beobachtungen Sie haben, desto stärker werden die Parameter Ihres Modells durch die Daten eingeschränkt und desto sicherer wird das Modell. Wie viele Beobachtungen Sie benötigen, hängt von der Art des Problems ab und davon, wie sicher Sie in Ihrem Modell sein müssen. Ich halte es nicht für eine gute Idee, sich bei solchen Dingen zu sehr auf "Faustregeln" zu verlassen, aber verwenden Sie alle Daten, die Sie erhalten können, und überprüfen Sie das Vertrauen / die glaubwürdigen Intervalle in Bezug auf Ihre Modellparameter und Vorhersagen.
quelle
Update: Ich habe den obigen Kommentar von @David Harris nicht gesehen, der meinem ziemlich ähnlich ist. Das tut mir leid. Ihr könnt meine Antwort löschen, wenn sie zu ähnlich ist.
Ich würde den zweiten Beitrag von Dikran Marsupail schreiben und meine zwei Cent hinzufügen.
Berücksichtigen Sie Ihre Vorkenntnisse über die Auswirkungen, die Sie von Ihren unabhängigen Variablen erwarten. Wenn Sie kleine Effekte erwarten, benötigen Sie eine große Probe. Wenn die Auswirkungen voraussichtlich groß sind, kann eine kleine Stichprobe die Aufgabe übernehmen.
Wie Sie vielleicht wissen, sind Standardfehler eine Funktion der Stichprobengröße. Je größer die Stichprobengröße, desto kleiner die Standardfehler. Wenn also die Effekte klein sind, dh nahe Null sind, kann nur ein kleiner Standardfehler diesen Effekt erkennen, dh um zu zeigen, dass er sich signifikant von Null unterscheidet. Wenn der Effekt jedoch groß ist (weit von Null entfernt), führt selbst ein großer Standardfehler zu signifikanten Ergebnissen.
Wenn Sie eine Referenz benötigen, schauen Sie sich Andrew Gelmans 'Blog an.
quelle
Es scheint, dass wir, um eine akzeptable Schätzung zu erhalten, die Regeln anwenden müssen, die von anderen Forschern untersucht wurden. Ich stimme den beiden oben genannten Faustregeln zu (10 obs für jede Sorte und die Formel von Harrell). Hier gibt es eine andere Frage, bei der die Daten offengelegt oder bevorzugt angegeben werden. Hosmer und Lemeshow haben in ihrem Buch eine Regel für offenbarte und Louviere und Hensher in ihrem Buch (Die Methoden der angegebenen Präferenz) eine Regel für angegebene Präferenzdaten angegeben
quelle