Ich habe mehrere Kovariaten in meiner Berechnung für ein Modell, und nicht alle sind statistisch signifikant. Sollte ich die entfernen, die nicht sind?
Diese Frage diskutiert das Phänomen, beantwortet aber nicht meine Frage: Wie interpretiere ich den nicht signifikanten Effekt einer Kovariate in ANCOVA?
Die Antwort auf diese Frage enthält nichts, was darauf hindeutet, dass nicht signifikante Kovariaten gestrichen werden. Deshalb neige ich momentan dazu, zu glauben, dass sie erhalten bleiben sollten. Bevor ich diese Antwort überhaupt gelesen habe, habe ich seit einer Kovariate dasselbe gedacht Ich kann immer noch einen Teil der Varianz erklären (und somit dem Modell helfen), ohne unbedingt einen Betrag zu erklären, der einen bestimmten Schwellenwert überschreitet (den Signifikanzschwellenwert, den ich für Kovariaten nicht zutreffend halte).
Irgendwo im Lebenslauf gibt es eine andere Frage, für die die Antwort zu implizieren scheint, dass Kovariaten unabhängig von ihrer Bedeutung beibehalten werden sollten, aber dies ist nicht klar. (Ich möchte auf diese Frage verlinken, konnte sie aber gerade nicht wieder finden.)
Also ... Sollten Kovariaten, die sich nicht als statistisch signifikant herausstellen, in der Berechnung für das Modell berücksichtigt werden? (Ich habe diese Frage bearbeitet, um zu verdeutlichen, dass Kovariaten bei der Berechnung sowieso nie im Modell enthalten sind.)
Was passiert, wenn die Kovariaten für einige Teilmengen der Daten statistisch signifikant sind (Teilmengen, die separat verarbeitet werden müssen)? Ich würde standardmäßig eine solche Kovariate beibehalten, da sonst entweder andere Modelle verwendet werden müssten oder in einem der Fälle eine statistisch signifikante Kovariate fehlen würde. Wenn Sie jedoch auch eine Antwort auf diesen Split-Fall haben, erwähnen Sie diese bitte.
Antworten:
Sie haben bereits mehrere gute Antworten erhalten. Es gibt Gründe, Kovariaten beizubehalten und Gründe, Kovariaten fallen zu lassen. Die statistische Signifikanz sollte in den allermeisten Fällen kein Schlüsselfaktor sein.
Wenn Sie sich in einem sehr explorativen Modus befinden und die Kovariate in der Literatur nicht wichtig ist und die Effektgröße gering ist und die Kovariate nur geringe Auswirkungen auf Ihr Modell hat und die Kovariate nicht in Ihrer Hypothese enthalten war, können Sie sie möglicherweise der Einfachheit halber löschen .
quelle
quelle
Eine nützliche Erkenntnis ist, dass eine Kovariate statistisch gesehen eigentlich nichts Besonderes ist, siehe zB Hilfe beim Schreiben von Kovariaten in eine Regressionsformel . Im Übrigen könnte es erklären, warum es kein
covariate
Tag gibt. Infolgedessen sind hier und anderswo Material zu nicht signifikanten Begriffen in einem linearen Modell relevant, ebenso wie die bekannten Kritiker der schrittweisen Regression, auch wenn ANCOVA nicht ausdrücklich erwähnt wird.Im Allgemeinen ist es eine schlechte Idee, Prädiktoren nur anhand der Signifikanz auszuwählen. Wenn Sie das Modell aus irgendeinem Grund nicht im Voraus spezifizieren können, sollten Sie andere Ansätze in Betracht ziehen. Wenn Sie jedoch vorhaben, sie an erster Stelle einzubeziehen, die Daten entsprechend zu erfassen und keine spezifischen Probleme zu haben (z. B. Kollinearität), behalten Sie sie einfach bei.
In Bezug auf die Gründe, sie zu behalten, erscheinen mir die Einwände, die Sie erhoben haben, vernünftig. Ein weiterer Grund wäre, dass das Entfernen von nicht signifikanten Prädiktoren die Schlussfolgerungen basierend auf dem Modell verzerrt. Eine weitere Möglichkeit, dies alles zu betrachten, ist die Frage, was durch das Entfernen dieser Kovariaten nachträglich erreicht werden könnte.
quelle
Wir brauchen wirklich mehr Informationen über Ihre Ziele, um diese Frage zu beantworten. Regressionen werden hauptsächlich für zwei Zwecke verwendet:
Vorhersage ist, wenn Ihr Ziel darin besteht, Werte der Ergebnisvariablen für Beobachtungen zu erraten, die sich nicht in der Stichprobe befinden (obwohl sie normalerweise im Bereich der Stichprobendaten liegen - ansonsten verwenden wir manchmal das Wort "Vorhersage"). Vorhersage ist nützlich für Werbezwecke, Finanzen usw. Wenn Sie nur an der Vorhersage einer Ergebnisvariablen interessiert sind, habe ich Ihnen wenig zu bieten.
Inferenz ist, wo der Spaß ist (auch wenn es nicht ist, wo das Geld ist). Inferenz ist der Ort, an dem Sie versuchen, Schlussfolgerungen zu bestimmten Modellparametern zu ziehen - normalerweise, um einen kausalen Effekt einer Variablen auf eine andere zu bestimmen. Trotz allgemeiner Wahrnehmung ist eine Regressionsanalyse niemals ausreichend für eine kausale Schlussfolgerung. Sie müssen immer mehr über den Prozess der Datengenerierung wissen, um zu wissen, ob Ihre Regression den kausalen Effekt erfasst. Die Schlüsselfrage für die kausale Folgerung aus Regressionen ist, ob das bedingte Mittel des Fehlers (bedingt durch die Regressoren) Null ist. Dies ist aus p-Werten von Regressoren nicht bekannt. Es ist möglich, unparteiische oder konsistente Regressionsschätzer zu haben, die jedoch weitaus mehr Aufwand erfordern, als nur einige offensichtliche Steuerelemente in die Regression zu werfen und zu hoffen, dass Sie die wichtigen erhalten.Mastering 'Metrics: Der Weg von der Ursache zur Wirkung und die meist harmlose Ökonometrie ). Das Beherrschen von Metriken ist am einfachsten zu lesen und recht kostengünstig. Seien Sie jedoch gewarnt, dass es sich nicht um die Vorgehensweise bei Regressionen handelt, sondern vielmehr um deren Bedeutung. Für eine gute Darstellung von Beispielen für gute und schlechte Beobachtungsforschungsdesigns empfehle ich David Freedmans (1991) "Statistical Models and Shoe Leather", Sociological Methodology , Band 21 (eine kurze und einfache Lektüre mit faszinierenden Beispielen).
Abgesehen davon: Die Besessenheit von statistischen Techniken über gutes Forschungsdesign in den meisten Universitätskursen ist eine meiner pädagogischen Herausforderungen.
Zweitens, um die aktuelle Bedeutung dieses Themas zu begründen: Der Unterschied zwischen Vorhersage und Inferenz ist, warum Big Data kein Ersatz für die Wissenschaft sind.
quelle