Nachdem ich hier die linearen Modellkoeffizienten geklärt habe, habe ich eine weitere Frage bezüglich der Nicht-Signifikanz (hoher p-Wert) für Koeffizienten von Faktorstufen.
Beispiel: Wenn mein lineares Modell einen Faktor mit 10 Stufen enthält und nur 3 dieser Stufen mit signifikanten p-Werten verknüpft sind, kann ich bei Verwendung des Modells zur Vorhersage von Y festlegen, dass der Koeffiziententerm nicht eingeschlossen wird, wenn das Subjekt in einen von fällt die nicht signficant Ebene?
Noch drastischer: Wäre es falsch, die 7 nicht signifikanten Ebenen in einer Ebene zusammenzufassen und neu zu analysieren?
statistical-significance
linear-model
model-selection
regression-coefficients
regression-strategies
Trees4theForest
quelle
quelle
Antworten:
Wenn Sie eine Prädiktorvariable mit mehreren Ebenen eingeben, geben Sie entweder die Variable ein oder nicht. Sie können keine Ebenen auswählen. Möglicherweise möchten Sie die Ebenen Ihrer Prädiktorvariablen umstrukturieren, um die Anzahl der Ebenen zu verringern (falls dies im Kontext Ihrer Analyse sinnvoll ist). Ich bin mir jedoch nicht sicher, ob dies zu einer statistischen Invalidierung führen würde, wenn Sie dies tun Reduzieren von Ebenen, weil Sie sehen, dass sie nicht signifikant sind.
quelle
@ Ellies Antwort ist gut.
Wenn Sie eine Variable mit mehreren Ebenen eingeben, müssen Sie alle diese Ebenen in Ihrer Analyse beibehalten. Durch Auswahl und Auswahl auf der Grundlage des Signifikanzniveaus werden sowohl Ihre Ergebnisse verzerrt als auch Ihre Schlussfolgerungen merkwürdig beeinflusst, auch wenn Ihre Schätzungen nach einem Zufallsprinzip gleich bleiben, da Ihre geschätzten Effekte auf verschiedenen Ebenen der Tabelle klaffende Löcher aufweisen Variable.
Ich würde in Betracht ziehen, Ihre Schätzungen für jede Ebene des Prädiktors grafisch zu betrachten. Siehst du einen Trend, wenn du aufsteigst, oder ist er unberechenbar?
Im Allgemeinen bin ich auch gegen das Umcodieren von Variablen auf der Grundlage statistischer Tests - oder auf der Grundlage rein statistischer Momente. Die Unterteilungen in Ihrer Variablen sollten sich auf etwas Festeres stützen - logisch sinnvolle Schnittpunkte, Feldinteresse an einem bestimmten Übergangspunkt usw.
quelle
Lassen Sie uns die beiden guten Antworten, die Sie bereits erhalten haben, ausführlich betrachten. Angenommen, Ihre abhängige Variable ist (sagen wir) das Einkommen und Ihre unabhängige Variable ist (sagen wir) die ethnische Zugehörigkeit mit Stufen gemäß Volkszählungsdefinitionen (Weiß, Schwarz / Afr. Am., Am. Inder / Alaska-Ureinwohner, Asiat, Ureinwohner Hawaii / Pac-Inselbewohner, andere und gemischtrassige). Nehmen wir an, Sie haben einen Dummy-Code, bei dem Weiß die Referenzkategorie ist, und Sie erhalten
Wenn Sie dieses Studium in New York City absolvieren, werden Sie wahrscheinlich nur sehr wenige einheimische Hawaiianer / Pazifikinsulaner haben. Sie können sich dafür entscheiden, sie (falls vorhanden) in die anderen aufzunehmen. Sie können jedoch nicht die vollständige Gleichung verwenden und nur diesen Koeffizienten nicht einschließen. Dann ist der Schnitt falsch, ebenso wie alle vorhergesagten Einkommenswerte.
Aber wie soll man Kategorien kombinieren?
Wie die anderen sagten, muss es Sinn machen .
quelle
Um eine andere Meinung zu vertreten: Warum nicht als zufälligen Effekt einfügen? Das sollte diese Level mit schwacher Unterstützung bestrafen und sicherstellen, dass ihre Effektgröße minimal ist. Auf diese Weise können Sie sie alle behalten, ohne sich Gedanken über alberne Vorhersagen machen zu müssen.
Und ja, dies ist aus Bayes-Sicht eher motiviert als die gesamte "Stichprobe aller möglichen Ebenen" von Zufallseffekten.
quelle
Ich fragte mich auch, ob ich nicht signifikante Kategorien mit der Referenzkategorie kombinieren könnte. Die folgenden Aussagen im Buch "Data Mining für Business Intelligence: Konzepte, Techniken und Anwendungen in Microsoft Office Excel® mit XLMiner®, 2. Auflage von Galit Shmueli, Nitin R. Patel, Peter C. Bruce", S. 87-89 (Dimension Der Verkleinerungsabschnitt ( Google Search Result ) scheint den zweiten Satz von @ Ellies Antwort zu unterstützen:
Ich plane jedoch, mit Fachleuten zu klären, ob das Kombinieren der Kategorien logisch sinnvoll ist (wie in vorherigen Antworten / Kommentaren impliziert, z. B. @Fomite, @gung).
quelle