Wann sollte ein Begriff aus einem Regressionsmodell entfernt werden?

20

Kann mir jemand raten, ob Folgendes sinnvoll ist:

Ich habe es mit einem gewöhnlichen linearen Modell mit 4 Prädiktoren zu tun. Ich bin mir nicht sicher, ob ich den am wenigsten signifikanten Begriff streichen soll. Der Wert liegt etwas über 0,05. Ich habe mich dafür ausgesprochen, diesen Begriff in diese Richtung zu verschieben: Die Multiplikation der Schätzung dieses Begriffs mit (zum Beispiel) dem Interquartilbereich der Probendaten für diese Variable gibt dem klinischen Effekt, den die Beibehaltung dieses Begriffs auf das Gesamtmodell hat, eine Bedeutung . Da diese Zahl sehr niedrig ist und ungefähr dem typischen Wertebereich innerhalb eines Tages entspricht, den die Variable annehmen kann, wenn sie in einem klinischen Umfeld gemessen wird, halte ich sie für klinisch nicht signifikant und könnte daher fallengelassen werden, um selbst ein sparsameres Modell zu erhalten Durch Fallenlassen wird das eingestellte etwas verringert .pR2

P Sellaz
quelle
1
warum suchst du ein parsimonius modell
Michael Bishop
3
Ist Sparsamkeit nicht eine gute Sache an sich? Die Art und Weise, wie ich es sehe, ein Modell mit Variablen, die im klinischen Sinne wenig oder gar keine Aussagekraft haben, ist schlechter als ein kleineres Modell ohne diese Variablen, auch wenn diese Variablen im statistischen Sinne signifikant sind
P Sellaz 27.10.11
Ich habe beschlossen, eine Antwort zu schreiben: stats.stackexchange.com/questions/17624/… . Aber kurz gesagt, nein, ich denke nicht, dass Sparsamkeit eine gute Sache für sich ist. Es ist manchmal aus bestimmten Gründen nützlich.
Michael Bishop
1
Ich stimme Michael zu. Es ist am besten, Variablen ohne offensichtliche Erklärungsfähigkeit einzuschließen, wenn ihnen die Chance gegeben wurde, "signifikant" zu sein. Sie haben bereits diese Freiheitsgrade verbracht.
Frank Harrell
Beachten Sie, dass Prädiktoren, die keine signifikanten Regressoren sind, bei korrelierten Regressoren immer noch Beträge ungleich Null zur erklärten Varianz beitragen können, indem sie andere signifikante Regressoren beeinflussen. Insbesondere bei nur vier Prädiktoren würde ich, wenn Regressoren korreliert sind, dafür plädieren, den nicht signifikanten im Modell zu belassen.
Torvon

Antworten:

18

Ich habe den Wunsch nach Sparsamkeit nie verstanden. Die Suche nach Sparsamkeit zerstört alle Aspekte der statistischen Inferenz (Verzerrung von Regressionskoeffizienten, Standardfehlern, Konfidenzintervallen, P-Werten). Ein guter Grund, Variablen beizubehalten, besteht darin, dass die Genauigkeit von Konfidenzintervallen und anderen Größen erhalten bleibt. Stellen Sie sich das so vor: Es wurden nur zwei unverzerrte Schätzer für die Restvarianz bei der gewöhnlichen multiplen Regression entwickelt: (1) die Schätzung aus dem vordefinierten (großen) Modell und (2) die Schätzung aus einem reduzierten Modell, das verallgemeinerte Grade ersetzt of freedom (GDF) für scheinbare (reduzierte) Regressionsfreiheitsgrade. GDF ist der Anzahl der Kandidatenparameter viel näher als der Anzahl der endgültigen "signifikanten" Parameter.

Hier ist eine andere Art, darüber nachzudenken. Angenommen, Sie würden eine ANOVA durchführen, um 5 Behandlungen zu vergleichen und einen 4-df-F-Test zu erhalten. Dann untersuchen Sie aus irgendeinem Grund die paarweisen Unterschiede zwischen Behandlungen mit t-Tests und haben beschlossen, einige der Behandlungen zu kombinieren oder zu entfernen (dies entspricht der schrittweisen Auswahl mit P, AIC, BIC, Cp für die 4 Dummy-Variablen). Der resultierende F-Test mit 1, 2 oder 3 df hat den Typ I-Fehler aufgeblasen. Der ursprüngliche F-Test mit 4 df enthielt eine perfekte Multiplizitätseinstellung.

Frank Harrell
quelle
3
+1 Sparsamkeit ist etwas, das oft nur in sehr spezifischen Zusammenhängen Sinn macht. Es gibt keinen Grund, das Voreingenommene gegen das Präzisionsspiel zu spielen, wenn Sie genug Präzision haben, um beides zu tun.
Fomite
2
+1 für eine gute Antwort. Aber was ist, wenn Sie Multikollinearität haben und eine Variable entfernen, um sie zu reduzieren? (Dies ist in der ursprünglichen Frage nicht der Fall, ist jedoch häufig in anderen Daten enthalten). Ist das resultierende Modell nicht oft in vielerlei Hinsicht überlegen (Verringerung der Varianz von Schätzern, Anzeichen von Koeffizienten, die eher die zugrunde liegende Theorie widerspiegeln usw.)? Wenn Sie immer noch die richtigen Freiheitsgrade (Originalmodell) verwenden.
Peter Ellis
4
Es ist immer noch besser, beide Variablen einzuschließen. Der einzige Preis, den Sie zahlen, ist der erhöhte Standardfehler bei der Schätzung eines der Effekte der Variablen, die für den anderen angepasst wurden. Gemeinsame Tests der beiden kollinearen Variablen sind sehr leistungsfähig, da sie eher Kräfte bündeln als gegeneinander antreten. Wenn Sie eine Variable löschen möchten, können Ihnen die Daten nicht mitteilen, welche Variable gelöscht werden soll.
Frank Harrell
17

Diese Antworten über die Auswahl von Variablen gehen alle davon aus, dass die Kosten für die Beobachtung von Variablen 0 betragen.

Und das stimmt nicht.

Während das Problem der Auswahl von Variablen für ein bestimmtes Modell möglicherweise eine Auswahl beinhaltet oder nicht, beinhalten die Auswirkungen auf das zukünftige Verhalten eine Auswahl.

Betrachten Sie das Problem der Vorhersage, welcher College-Lineman in der NFL am besten abschneidet. Du bist ein Pfadfinder. Sie müssen sich überlegen, welche Qualitäten der aktuellen Linemen in der NFL den Erfolg am ehesten prognostizieren. Sie messen 500 Mengen und beginnen mit der Auswahl der Mengen, die in Zukunft benötigt werden.

Was sollte man tun? Sollten Sie alle 500 behalten? Sollten einige (Sternzeichen, Wochentag geboren am) beseitigt werden?

Dies ist eine wichtige Frage und nicht akademisch. Die Beobachtung von Daten ist mit Kosten verbunden, und der Rahmen der Kostenwirksamkeit legt nahe, dass einige Variablen in Zukunft NICHT beachtet werden MÜSSEN, da ihr Wert niedrig ist.

Paul A. Thompson
quelle
4
+1: ein wichtiger und interessanter Punkt. Es zeigt sich auch, dass die Frage unvollständig ist, da sie nicht den Zweck des Modells angibt. (Die Kosten wären weniger relevant für ein wissenschaftliches Modell, das eine erklärende Theorie aufbauen möchte, jedoch in einem Vorhersagemodell zum Vorschein kommt, das für die wiederholte Verwendung vorgesehen ist.)
whuber
6

Es gibt mindestens zwei weitere mögliche Gründe für die Beibehaltung einer Variablen: 1) Sie wirkt sich auf die Parameter für ANDERE Variablen aus. 2) Die Tatsache, dass es klein ist, ist an sich klinisch interessant

Um ungefähr 1 zu sehen, können Sie die vorhergesagten Werte für jede Person aus einem Modell mit und ohne die Variable im Modell anzeigen. Ich schlage vor, ein Streudiagramm dieser beiden Wertemengen zu erstellen. Wenn es keine großen Unterschiede gibt, ist das ein Argument gegen diesen Grund

Denken Sie für 2 darüber nach, warum Sie diese Variable in der Liste der möglichen Variablen hatten. Basiert es auf Theorie? Haben andere Forscher einen großen Effekt gefunden?

Peter Flom - Wiedereinsetzung von Monica
quelle
Es gibt sehr wenig Kollinearität, von der die Rede ist, daher macht das Entfernen dieser Variablen für die anderen nur einen geringen Unterschied. Das ist ein interessanter Punkt, wenn es klinisch interessant wäre, wenn es klein wäre. Die Daten stammen aus einer explorativen Umfrage, bei der zumindest zu diesem Zeitpunkt kein Grund zu der Annahme besteht, dass eine Variable wichtiger ist als eine andere. Es gibt jedoch tagesinterne Schwankungen in dieser Variablen. Wenn also ein Effekt ähnlich groß ist wie diese Schwankung, scheint er für mich klinisch nicht sehr bedeutsam zu sein.
P Sellaz
OK, dann klingt es wie ein guter Kandidat für die Entfernung.
Peter Flom - Wiedereinsetzung von Monica
@P Sellaz - Wenn "die Daten aus einer Sondierungsumfrage stammen", heißt das, dass die Teilnehmer selbst ausgewählt wurden? Ich finde, dass die Kommentare von @Frank Harrell zu berücksichtigen sind, aber die Sorge um die strikte Genauigkeit von p-Werten, Konfidenzintervallen usw. wird strittig, wenn die Stichprobe selbst ausgewählt wurde.
Rolando2
Ich denke, es wird nur umstritten, wenn Sie sie nicht verwenden.
Frank Harrell
@FrankHarrel - bitte klären: "them" =?
Rolando2
6

Heutzutage wird am häufigsten empfohlen, den AIC der beiden Modelle zu ermitteln und den mit dem niedrigeren AIC zu verwenden. Wenn Ihr vollständiges Modell einen AIC von -20 hat und das Modell ohne den schwächsten Prädiktor einen AIC> -20 hat, behalten Sie das vollständige Modell. Einige könnten argumentieren, dass, wenn der Unterschied <3 ist, Sie den einfacheren behalten. Ich bevorzuge den Rat, dass Sie den BIC verwenden könnten, um "Bindungen" zu lösen, wenn die AIC innerhalb von 3 voneinander liegen.

Wenn Sie mit R dann den Befehl der AIC zu bekommen , ist ... AIC.

Ich habe hier ein Lehrbuch über Modellierung aus den frühen 90er Jahren, das vorschlägt, dass Sie alle Ihre nicht signifikanten Prädiktoren fallen lassen. Dies bedeutet jedoch, dass Sie unabhängig von der Komplexität, die der Prädiktor dem Modell hinzufügt oder daraus subtrahiert, fallen. Es ist auch nur für ANOVA, wo es um die Bedeutung der erklärten Variabilität geht und nicht um die Größe der Steigung im Lichte der anderen Erklärungen. Die moderneren Ratschläge zur Verwendung von AIC berücksichtigen diese Faktoren. Es gibt viele Gründe, warum der nicht signifikante Prädiktor eingeschlossen werden sollte, auch wenn er nicht signifikant ist. Beispielsweise kann es Korrelationsprobleme mit anderen Prädiktoren geben, bei denen es sich möglicherweise um einen relativ einfachen Prädiktor handelt. Wenn Sie den einfachsten Rat wünschen, gehen Sie zu AIC und verwenden Sie BIC, um die Bindung zu lösen und eine Differenz von 3 als Ihr Fenster der Gleichheit zu verwenden.

John
quelle
Kleiner ist besser in der R-Darstellung, ja?
Aaron - Wiedereinsetzung von Monica
Danke für deine Antwort. Ich fand, dass der Unterschied in AIC zwischen den beiden Modellen nur 2 ist.
P Sellaz
Das kleinere Modell hat einen etwas größeren AIC und BIC AIC: Groß-Klein-AIC = -2 BIC: Groß-Klein-BIC- 7.8
P Sellaz
Aaron ... hoppla ... niedriger, feststehend ...
John
1
Nur um etwas aufzuklären, ist dieser zusätzliche Begriff nur eine weitere Kovariate, und es gibt sehr wenig Kollinearität.
P Sellaz
4

Wofür verwenden Sie dieses Modell? Ist Sparsamkeit ein wichtiges Ziel?

In manchen Situationen werden sparsamere Modelle bevorzugt, aber ich würde nicht sagen, dass Sparsamkeit eine gute Sache für sich ist. Sparsame Modelle können leichter verstanden und kommuniziert werden, und Sparsamkeit kann helfen, Überanpassungen vorzubeugen. Oft sind diese Probleme jedoch nicht besonders wichtig oder können auf andere Weise angegangen werden.

Das Annähern aus der entgegengesetzten Richtung, einschließlich eines zusätzlichen Terms in einer Regressionsgleichung, hat einige Vorteile, selbst in Situationen, in denen der zusätzliche Term selbst nicht von Interesse ist und das Modell nicht sehr gut passt. Vielleicht denken Sie nicht, dass dies der Fall ist ist eine wichtige Variable, die gesteuert werden muss, andere jedoch möglicherweise. Natürlich gibt es andere sehr wichtige sachliche Gründe, eine Variable auszuschließen, z. B. könnte dies durch das Ergebnis verursacht werden.

Michael Bishop
quelle
3

Nach Ihrer Formulierung klingt es, als ob Sie dazu neigen, den letzten Prädiktor fallen zu lassen, da sein Vorhersagewert niedrig ist. Eine wesentliche Änderung dieses Prädiktors würde keine wesentliche Änderung der Antwortvariablen bedeuten. Wenn das der Fall ist, dann mag ich dieses Kriterium für das Einschließen / Löschen des Prädiktors. Es ist mehr in der praktischen Realität begründet als der AIC oder BIC sein kann, und es ist für Ihr Publikum für diese Forschung erklärbarer.

rolando2
quelle
Ja, genau das habe ich gemeint.
P Sellaz