Kann ich Koeffizienten für nicht signifikante Faktorstufen in einem linearen Modell ignorieren?

15

Nachdem ich hier die linearen Modellkoeffizienten geklärt habe, habe ich eine weitere Frage bezüglich der Nicht-Signifikanz (hoher p-Wert) für Koeffizienten von Faktorstufen.

Beispiel: Wenn mein lineares Modell einen Faktor mit 10 Stufen enthält und nur 3 dieser Stufen mit signifikanten p-Werten verknüpft sind, kann ich bei Verwendung des Modells zur Vorhersage von Y festlegen, dass der Koeffiziententerm nicht eingeschlossen wird, wenn das Subjekt in einen von fällt die nicht signficant Ebene?

Noch drastischer: Wäre es falsch, die 7 nicht signifikanten Ebenen in einer Ebene zusammenzufassen und neu zu analysieren?

Trees4theForest
quelle
2
Nun, Sie könnten auf diese Weise voreingenommene Schlussfolgerungen erhalten - wenn Sie beispielsweise Vorhersageintervalle bilden, stimmen die Wahrscheinlichkeiten für die Abdeckung wahrscheinlich nicht mit Einzelpersonen in einer der sieben unbedeutenden Ebenen überein.
Makro
1
Sie haben hier einige gute Antworten erhalten, könnten sich aber auch dafür interessieren, warum es nicht angebracht ist, Faktoren mit hohen p-Werten zu streichen. Es sei darauf hingewiesen, dass dies logischerweise einer automatischen Modellauswahl entspricht, auch wenn Sie dies selbst tun, anstatt dass der Computer dies für Sie erledigt. Das Durchlesen dieser Frage und der angebotenen Antworten kann helfen, zu verstehen, warum diese Dinge wahr sind.
gung - Wiedereinsetzung von Monica
1
Dieses Q hat ein genaues Duplikat von November 2012: stats.stackexchange.com/questions/18745/… . Es gibt auch ein paar zum Nachdenken anregende Informationen.
Rolando2
2
Dies ist eine so wichtige Frage, und doch gibt es keine Antwort, die das Argument mit der Theorie stützt. So wie es aussieht, sind sie nur Meinungen. Nicht einmal das Buch, das in einer der Antworten verlinkt ist (dessen Schlussfolgerung sich von den anderen unterscheidet), enthält Hinweise. Im Moment vertraue ich keinem von ihnen und würde daher lieber nichts tun (dh alle Kategorien / Faktoren beibehalten).
Luchonacho

Antworten:

13

Wenn Sie eine Prädiktorvariable mit mehreren Ebenen eingeben, geben Sie entweder die Variable ein oder nicht. Sie können keine Ebenen auswählen. Möglicherweise möchten Sie die Ebenen Ihrer Prädiktorvariablen umstrukturieren, um die Anzahl der Ebenen zu verringern (falls dies im Kontext Ihrer Analyse sinnvoll ist). Ich bin mir jedoch nicht sicher, ob dies zu einer statistischen Invalidierung führen würde, wenn Sie dies tun Reduzieren von Ebenen, weil Sie sehen, dass sie nicht signifikant sind.

pppα>.0001

Ellie
quelle
(Korrigiert meinen p-Wert Tippfehler.) Gute Punkte hier. Das Zusammenfallen von Ebenen, vorausgesetzt, sie basieren auf einer realistischen und logischen Begründung, die im Kontext der Studie gerechtfertigt ist (die sie möglicherweise auch entlang der Signifikanzunterbrechung auswertet), ist angemessen, aber nicht, sie willkürlich anhand ihrer Signifikanz zusammenzufassen . Ich habs.
Trees4theForest
15

@ Ellies Antwort ist gut.

Wenn Sie eine Variable mit mehreren Ebenen eingeben, müssen Sie alle diese Ebenen in Ihrer Analyse beibehalten. Durch Auswahl und Auswahl auf der Grundlage des Signifikanzniveaus werden sowohl Ihre Ergebnisse verzerrt als auch Ihre Schlussfolgerungen merkwürdig beeinflusst, auch wenn Ihre Schätzungen nach einem Zufallsprinzip gleich bleiben, da Ihre geschätzten Effekte auf verschiedenen Ebenen der Tabelle klaffende Löcher aufweisen Variable.

Ich würde in Betracht ziehen, Ihre Schätzungen für jede Ebene des Prädiktors grafisch zu betrachten. Siehst du einen Trend, wenn du aufsteigst, oder ist er unberechenbar?

Im Allgemeinen bin ich auch gegen das Umcodieren von Variablen auf der Grundlage statistischer Tests - oder auf der Grundlage rein statistischer Momente. Die Unterteilungen in Ihrer Variablen sollten sich auf etwas Festeres stützen - logisch sinnvolle Schnittpunkte, Feldinteresse an einem bestimmten Übergangspunkt usw.

Fomite
quelle
8

Lassen Sie uns die beiden guten Antworten, die Sie bereits erhalten haben, ausführlich betrachten. Angenommen, Ihre abhängige Variable ist (sagen wir) das Einkommen und Ihre unabhängige Variable ist (sagen wir) die ethnische Zugehörigkeit mit Stufen gemäß Volkszählungsdefinitionen (Weiß, Schwarz / Afr. Am., Am. Inder / Alaska-Ureinwohner, Asiat, Ureinwohner Hawaii / Pac-Inselbewohner, andere und gemischtrassige). Nehmen wir an, Sie haben einen Dummy-Code, bei dem Weiß die Referenzkategorie ist, und Sie erhalten

ichncÖme=b0+b1BEINEIN+b2EINichEINN+b3EINS+b4NHPich+b5Ö+b6MR

Wenn Sie dieses Studium in New York City absolvieren, werden Sie wahrscheinlich nur sehr wenige einheimische Hawaiianer / Pazifikinsulaner haben. Sie können sich dafür entscheiden, sie (falls vorhanden) in die anderen aufzunehmen. Sie können jedoch nicht die vollständige Gleichung verwenden und nur diesen Koeffizienten nicht einschließen. Dann ist der Schnitt falsch, ebenso wie alle vorhergesagten Einkommenswerte.

Aber wie soll man Kategorien kombinieren?

Wie die anderen sagten, muss es Sinn machen .

Peter Flom - Wiedereinsetzung von Monica
quelle
4

Um eine andere Meinung zu vertreten: Warum nicht als zufälligen Effekt einfügen? Das sollte diese Level mit schwacher Unterstützung bestrafen und sicherstellen, dass ihre Effektgröße minimal ist. Auf diese Weise können Sie sie alle behalten, ohne sich Gedanken über alberne Vorhersagen machen zu müssen.

Und ja, dies ist aus Bayes-Sicht eher motiviert als die gesamte "Stichprobe aller möglichen Ebenen" von Zufallseffekten.

Shea Parkes
quelle
0

Ich fragte mich auch, ob ich nicht signifikante Kategorien mit der Referenzkategorie kombinieren könnte. Die folgenden Aussagen im Buch "Data Mining für Business Intelligence: Konzepte, Techniken und Anwendungen in Microsoft Office Excel® mit XLMiner®, 2. Auflage von Galit Shmueli, Nitin R. Patel, Peter C. Bruce", S. 87-89 (Dimension Der Verkleinerungsabschnitt ( Google Search Result ) scheint den zweiten Satz von @ Ellies Antwort zu unterstützen:

  • "Angepasste Regressionsmodelle können auch verwendet werden, um ähnliche Kategorien weiter zu kombinieren: Kategorien mit Koeffizienten, die statistisch nicht signifikant sind (dh einen hohen p-Wert haben), können mit der Referenzkategorie kombiniert werden, da ihre Unterscheidung von der Referenzkategorie keine zu haben scheint signifikante Auswirkung auf die Ausgabevariable "
  • "Kategorien mit ähnlichen Koeffizientenwerten (und dem gleichen Vorzeichen) können häufig kombiniert werden, da ihre Auswirkung auf die Ausgabevariable ähnlich ist."

Ich plane jedoch, mit Fachleuten zu klären, ob das Kombinieren der Kategorien logisch sinnvoll ist (wie in vorherigen Antworten / Kommentaren impliziert, z. B. @Fomite, @gung).

user1420372
quelle
Diese Antwort wird durch die anderen Antworten hier widersprochen.
kjetil b halvorsen