Sollten Kovariaten, die statistisch nicht signifikant sind, bei der Erstellung eines Modells berücksichtigt werden?

39

Ich habe mehrere Kovariaten in meiner Berechnung für ein Modell, und nicht alle sind statistisch signifikant. Sollte ich die entfernen, die nicht sind?

Diese Frage diskutiert das Phänomen, beantwortet aber nicht meine Frage: Wie interpretiere ich den nicht signifikanten Effekt einer Kovariate in ANCOVA?

Die Antwort auf diese Frage enthält nichts, was darauf hindeutet, dass nicht signifikante Kovariaten gestrichen werden. Deshalb neige ich momentan dazu, zu glauben, dass sie erhalten bleiben sollten. Bevor ich diese Antwort überhaupt gelesen habe, habe ich seit einer Kovariate dasselbe gedacht Ich kann immer noch einen Teil der Varianz erklären (und somit dem Modell helfen), ohne unbedingt einen Betrag zu erklären, der einen bestimmten Schwellenwert überschreitet (den Signifikanzschwellenwert, den ich für Kovariaten nicht zutreffend halte).

Irgendwo im Lebenslauf gibt es eine andere Frage, für die die Antwort zu implizieren scheint, dass Kovariaten unabhängig von ihrer Bedeutung beibehalten werden sollten, aber dies ist nicht klar. (Ich möchte auf diese Frage verlinken, konnte sie aber gerade nicht wieder finden.)

Also ... Sollten Kovariaten, die sich nicht als statistisch signifikant herausstellen, in der Berechnung für das Modell berücksichtigt werden? (Ich habe diese Frage bearbeitet, um zu verdeutlichen, dass Kovariaten bei der Berechnung sowieso nie im Modell enthalten sind.)

Was passiert, wenn die Kovariaten für einige Teilmengen der Daten statistisch signifikant sind (Teilmengen, die separat verarbeitet werden müssen)? Ich würde standardmäßig eine solche Kovariate beibehalten, da sonst entweder andere Modelle verwendet werden müssten oder in einem der Fälle eine statistisch signifikante Kovariate fehlen würde. Wenn Sie jedoch auch eine Antwort auf diesen Split-Fall haben, erwähnen Sie diese bitte.

AM
quelle
6
Generell würde ich sagen, dass Sie Variablen behalten sollten, die theoretisch wichtig oder in früheren Studien signifikant waren, auch wenn Ihre Daten ihre Wirkung nicht unterstützen. Um eine genauere Antwort zu erhalten, sollten Sie jedoch ein paar Zeilen hinzufügen, um Ihr Modell und seinen Zweck zu erläutern (z. B. Ermittlung von Risikofaktoren, Vorhersagen usw.).
3.
Ich würde sagen, es kommt darauf an. Tests sind nur Indikatoren. Wenn Sie der Meinung sind, dass es eine kleine Abhängigkeit geben sollte, denken Sie daran, das Modell beizubehalten. Wenn Sie auch glauben, dass die Abhängigkeit nicht da sein sollte, lassen Sie sie aus.
Bene
OK, so dass Sie beide sagen werden , dass Nicht-Bedeutung nicht nicht diktieren eine Kovariate aus der Betrachtung entfernt werden, so haben Sie beide meine Frage wirklich beantwortet. Ich sollte meine Frage tatsächlich umformulieren, um deutlicher zu machen, dass ich frage, ob die statistische Bedeutung einer Kovariate eine notwendige Bedingung für deren Beibehaltung ist ("Bedeutet die Nichtbedeutung einer Kovariate, dass sie beseitigt werden sollte ..."), und Ich würde jeden Ihrer Kommentare als Antwort akzeptieren.
Uhr
Zuvor möchte ich jedoch sicherstellen, dass ich die richtige Terminologie verwende. Ursprünglich schrieb ich "im Modell behalten", aber das schien nicht richtig zu sein, da Kovariaten im Modell nie vorkommen. Ich entschied mich für "In der Berechnung für das Modell beibehalten " (und "Nicht berücksichtigt "), aber gibt es eine bessere Möglichkeit, dies zu sagen? Was ist der richtige Begriff für das, in dem die Kovariate aufbewahrt oder aus dem sie entfernt wird?
AM
3
Sie müssten die korrekte Ausführung solcher Auswahlverfahren validieren. Andere sind gescheitert.
Frank Harrell

Antworten:

32

Sie haben bereits mehrere gute Antworten erhalten. Es gibt Gründe, Kovariaten beizubehalten und Gründe, Kovariaten fallen zu lassen. Die statistische Signifikanz sollte in den allermeisten Fällen kein Schlüsselfaktor sein.

  1. Kovariaten können von solcher materieller Bedeutung sein, dass sie dort vorhanden sein müssen.
  2. Die Effektgröße einer Kovariate kann hoch sein, auch wenn sie nicht signifikant ist.
  3. Die Kovariate kann andere Aspekte des Modells beeinflussen.
  4. Die Kovariate kann ein Teil dessen sein, wie Ihre Hypothese formuliert wurde.

Wenn Sie sich in einem sehr explorativen Modus befinden und die Kovariate in der Literatur nicht wichtig ist und die Effektgröße gering ist und die Kovariate nur geringe Auswirkungen auf Ihr Modell hat und die Kovariate nicht in Ihrer Hypothese enthalten war, können Sie sie möglicherweise der Einfachheit halber löschen .

Peter Flom - Wiedereinsetzung von Monica
quelle
6
Eine sehr wichtige, aber oft vernachlässigte Situation wird hier durch # 4 abgedeckt, aber ich werde es darlegen. Oft - in der Regel - sollten Sie Ihre Ergebnisse mit denen früherer Mitarbeiter mit ähnlichen Daten vergleichen wollen. Wenn andere bestimmte Kovariaten in ihren Modellen finden, sollten Sie Ihre Ergebnisse mit denen vergleichen, unabhängig davon, ob Ihre Kovariaten (konventionelle) Signifikanzniveaus erreichen. Beachten Sie, dass die Fälle hier von den Berichtsmodellen abweichen können, die Sie für (besonders) nicht gut halten, und von den Berichtsmodellen, die Sie für gut halten.
Nick Cox
1
Ich neigte definitiv dazu, „mitzumachen“ (und machte nicht viel aus dem p-Wert für Kovariaten), aber Ihre Antwort enthält eine sehr schöne Checkliste (na ja, zwei), die eine Minderheit herausnehmen kann. Die Effektgröße ist etwas, woran ich nicht gedacht habe, und obwohl ich Hypothesen in Betracht gezogen habe, gefällt es mir sehr, dass Sie sie aufgenommen haben, aus den Gründen, die @NickCox erwähnte, und einfach, um das Angeln zu entmutigen.
Uhr
25

P

Frank Harrell
quelle
10
Die lange Antwort lautet "Ja"! +1 und ein LOL.
Peter Flom - Reinstate Monica
Wenn nicht p-Werte, was sind andere Gründe, um Prädiktoren zu entfernen? Sie erwähnen die Interpretation von Konfidenzintervallen, aber es scheint, als wäre ein "interessanter Bereich" Null, was bedeutet, dass Menschen CIs ähnlich wie p-Werte interpretieren würden (Einschluss oder Ausschluss von Null).
Mark White
1
Was sind Gründe, Prädiktoren zu entfernen, wenn dies statistische Eigenschaften verzerrt? Nicht klar auf Ihre Frage und die "Null".
Frank Harrell
7

Eine nützliche Erkenntnis ist, dass eine Kovariate statistisch gesehen eigentlich nichts Besonderes ist, siehe zB Hilfe beim Schreiben von Kovariaten in eine Regressionsformel . Im Übrigen könnte es erklären, warum es kein covariateTag gibt. Infolgedessen sind hier und anderswo Material zu nicht signifikanten Begriffen in einem linearen Modell relevant, ebenso wie die bekannten Kritiker der schrittweisen Regression, auch wenn ANCOVA nicht ausdrücklich erwähnt wird.

Im Allgemeinen ist es eine schlechte Idee, Prädiktoren nur anhand der Signifikanz auszuwählen. Wenn Sie das Modell aus irgendeinem Grund nicht im Voraus spezifizieren können, sollten Sie andere Ansätze in Betracht ziehen. Wenn Sie jedoch vorhaben, sie an erster Stelle einzubeziehen, die Daten entsprechend zu erfassen und keine spezifischen Probleme zu haben (z. B. Kollinearität), behalten Sie sie einfach bei.

In Bezug auf die Gründe, sie zu behalten, erscheinen mir die Einwände, die Sie erhoben haben, vernünftig. Ein weiterer Grund wäre, dass das Entfernen von nicht signifikanten Prädiktoren die Schlussfolgerungen basierend auf dem Modell verzerrt. Eine weitere Möglichkeit, dies alles zu betrachten, ist die Frage, was durch das Entfernen dieser Kovariaten nachträglich erreicht werden könnte.

Gala
quelle
4

Wir brauchen wirklich mehr Informationen über Ihre Ziele, um diese Frage zu beantworten. Regressionen werden hauptsächlich für zwei Zwecke verwendet:

  1. Prognose
  2. Inferenz

Vorhersage ist, wenn Ihr Ziel darin besteht, Werte der Ergebnisvariablen für Beobachtungen zu erraten, die sich nicht in der Stichprobe befinden (obwohl sie normalerweise im Bereich der Stichprobendaten liegen - ansonsten verwenden wir manchmal das Wort "Vorhersage"). Vorhersage ist nützlich für Werbezwecke, Finanzen usw. Wenn Sie nur an der Vorhersage einer Ergebnisvariablen interessiert sind, habe ich Ihnen wenig zu bieten.

Inferenz ist, wo der Spaß ist (auch wenn es nicht ist, wo das Geld ist). Inferenz ist der Ort, an dem Sie versuchen, Schlussfolgerungen zu bestimmten Modellparametern zu ziehen - normalerweise, um einen kausalen Effekt einer Variablen auf eine andere zu bestimmen. Trotz allgemeiner Wahrnehmung ist eine Regressionsanalyse niemals ausreichend für eine kausale Schlussfolgerung. Sie müssen immer mehr über den Prozess der Datengenerierung wissen, um zu wissen, ob Ihre Regression den kausalen Effekt erfasst. Die Schlüsselfrage für die kausale Folgerung aus Regressionen ist, ob das bedingte Mittel des Fehlers (bedingt durch die Regressoren) Null ist. Dies ist aus p-Werten von Regressoren nicht bekannt. Es ist möglich, unparteiische oder konsistente Regressionsschätzer zu haben, die jedoch weitaus mehr Aufwand erfordern, als nur einige offensichtliche Steuerelemente in die Regression zu werfen und zu hoffen, dass Sie die wichtigen erhalten.Mastering 'Metrics: Der Weg von der Ursache zur Wirkung und die meist harmlose Ökonometrie ). Das Beherrschen von Metriken ist am einfachsten zu lesen und recht kostengünstig. Seien Sie jedoch gewarnt, dass es sich nicht um die Vorgehensweise bei Regressionen handelt, sondern vielmehr um deren Bedeutung. Für eine gute Darstellung von Beispielen für gute und schlechte Beobachtungsforschungsdesigns empfehle ich David Freedmans (1991) "Statistical Models and Shoe Leather", Sociological Methodology , Band 21 (eine kurze und einfache Lektüre mit faszinierenden Beispielen).

Abgesehen davon: Die Besessenheit von statistischen Techniken über gutes Forschungsdesign in den meisten Universitätskursen ist eine meiner pädagogischen Herausforderungen.

Zweitens, um die aktuelle Bedeutung dieses Themas zu begründen: Der Unterschied zwischen Vorhersage und Inferenz ist, warum Big Data kein Ersatz für die Wissenschaft sind.

Randy Cragun
quelle