Es gibt verschiedene Fragen, die sich auf die relativen Vorzüge verschiedener Methoden zur Bewertung der Bedeutung von Regressionsprädiktoren beziehen, zum Beispiel diese .
Mir ist aufgefallen, dass @gung in diesem Kommentar die Praxis als "falsche Idee" bezeichnet und zur Unterstützung dieser Behauptung auf diese Antwort verweist . Der letzte Absatz der Antwort ist der relevante Teil.
Ich bin der Meinung, dass dieses Thema eine eigene Frage verdient, und bin mir auch in einigen Aspekten der Argumentation ein wenig unsicher. Das wichtigste Segment des fraglichen Absatzes geht
Wenn das wahre r nicht genau 0 ist, wird das geschätzte r zu einem großen Teil durch den Bereich der verwendeten Kovariatenwerte bestimmt.
Entspricht dies der Aussage, dass wir keine standardisierten Koeffizienten zur Beurteilung der Wichtigkeit verwenden sollten, da wir möglicherweise einen eingeschränkten Bereich von -Werten und einen größeren Bereich von -Werten zufällig ausgewählt haben ? Wenn wir dann dieses Problem standardisieren, ist es nicht verschwunden und wir denken fälschlicherweise, dass ein schwächerer Prädiktor als ?
Warum verschwindet das Problem, wenn das wahre genau 0 ist?
Wie beseitigen andere Methoden (z. B. die Betrachtung semipartialer Koeffizienten) dieses Problem?
quelle
Antworten:
gungs answer ist meiner Ansicht nach eine Kritik an der Idee, die relative Stärke verschiedener Variablen in empirischen Analysen zu vergleichen, ohne ein Modell zu berücksichtigen, wie diese Variablen interagieren oder wie die (wahre) gemeinsame Verteilung aller relevanten Variablen aussieht. Denken Sie an das Beispiel für die Wichtigkeit der Erwähnung von Größe und Gewicht des Athleten. Niemand kann beweisen, dass beispielsweise eine additive lineare Regression eine gute Annäherung an die bedingte Erwartungsfunktion darstellt, oder mit anderen Worten, Größe und Gewicht können auf sehr komplizierte Weise für die Leistung des Athleten wichtig sein. Sie können eine lineare Regression mit beiden Variablen ausführen und die standardisierten Koeffizienten vergleichen, wissen jedoch nicht, ob die Ergebnisse wirklich sinnvoll sind.
Um ein Mickey-Mouse-Beispiel zu geben, das sich mit Sportkletterern (meinen Lieblingssportarten) befasst, finden Sie hier eine Liste der besten männlichen Kletterer nach Leistungsmaßstäben auf der Website 8a.nu mit Informationen zu Größe, Gewicht und Geburtsjahr (nur diese) mit verfügbaren Informationen). Wir standardisieren alle Variablen im Voraus, damit wir die Zuordnung zwischen einer Standardabweichungsänderung in den Prädiktoren und einer Standardabweichungsänderung in der Leistungsverteilung direkt vergleichen können. Mit Ausnahme der Nummer eins, Adam Ondra, der ungewöhnlich groß ist, erhalten wir das folgende Ergebnis. ::
Wenn man Standardfehler usw. überhaupt ignoriert, scheint das Gewicht wichtiger als die Größe oder gleich wichtig zu sein. Man könnte aber argumentieren, dass Kletterer mit der Zeit besser geworden sind. Vielleicht sollten wir Kohorteneffekte kontrollieren, z. B. Trainingsmöglichkeiten durch bessere Inneneinrichtungen? Lassen Sie uns das Geburtsjahr angeben!
Jetzt finden wir, dass es wichtiger ist, jung und klein zu sein, als schlank zu sein. Aber jetzt könnte eine andere Person argumentieren, dass dies nur für Top-Kletterer gilt? Es könnte sinnvoll sein, die standardisierten Koeffizienten über die gesamte Leistungsverteilung zu vergleichen (z. B. über Quantilregression). Und natürlich kann es für Klettererinnen, die viel kleiner und schlanker sind, anders sein. Niemand weiß.
Dies ist ein Mickey-Mouse-Beispiel für das, worauf sich Gung meiner Meinung nach bezieht. Ich bin nicht so skeptisch, ich denke, es kann sinnvoll sein, standardisierte Koeffizienten zu betrachten, wenn Sie der Meinung sind, dass Sie das richtige Modell angegeben haben oder dass eine additive Trennbarkeit sinnvoll ist. Dies hängt aber wie so oft von der jeweiligen Frage ab.
Zu den anderen Fragen:
Ja, das könnte man so sagen. Der "größere Bereich von X2-Werten" könnte durch Weglassen der variablen Vorspannung entstehen, indem wichtige Variablen, die mit X1 korreliert sind, eingeschlossen werden, aber diejenigen weggelassen werden, die mit X2 korreliert sind.
Andere Modelle wie semipartielle Koeffizienten haben das gleiche Problem. Wenn Ihr Datensatz groß genug ist, können Sie beispielsweise eine nichtparametrische Regression durchführen und versuchen, die vollständige Gelenkverteilung ohne Annahmen über die funktionale Form (z. B. additive Trennbarkeit) zu schätzen, um zu rechtfertigen, was Sie tun. Dies ist jedoch niemals ein Beweis.
Zusammenfassend kann ich sagen, dass es sinnvoll sein kann, standardisierte oder semipartielle Koeffizienten zu vergleichen, aber es hängt davon ab, und Sie müssen sich selbst oder andere überlegen, warum Sie dies für sinnvoll halten.
quelle