Vergleich der Wichtigkeit verschiedener Sätze von Prädiktoren

13

Ich habe einen Forschungsstudenten mit einem bestimmten Problem beraten und wollte unbedingt die Meinung anderer auf dieser Website einholen.

Kontext:

Der Forscher hatte drei Arten von Prädiktorvariablen. Jeder Typ enthielt eine andere Anzahl von Prädiktorvariablen. Jeder Prädiktor war eine kontinuierliche Variable:

  • Soziales: S1, S2, S3, S4 (dh vier Prädiktoren)
  • Kognitiv: C1, C2 (dh zwei Prädiktoren)
  • Verhalten: B1, B2, B3 (dh drei Prädiktoren)

Die Ergebnisvariable war ebenfalls kontinuierlich. Die Stichprobe umfasste rund 60 Teilnehmer.

Der Forscher wollte kommentieren, welche Arten von Prädiktoren für die Erklärung der Ergebnisvariablen wichtiger sind. Dies hing mit allgemeineren theoretischen Bedenken hinsichtlich der relativen Bedeutung dieser Arten von Prädiktoren zusammen.

Fragen

  • Was ist ein guter Weg, um die relative Wichtigkeit eines Satzes von Prädiktoren im Vergleich zu einem anderen Satz zu bewerten?
  • Was ist eine gute Strategie, um mit der Tatsache umzugehen, dass es in jeder Menge eine unterschiedliche Anzahl von Prädiktoren gibt?
  • Welche Vorbehalte bei der Interpretation könnten Sie vorschlagen?

Verweise auf Beispiele oder Diskussionen über Techniken sind ebenfalls willkommen.

Jeromy Anglim
quelle

Antworten:

7

Angenommen, die erste Gruppe von Prädiktoren erfordert Freiheitsgrade (a 4 für nichtlineare Terme), die zweite Gruppe erfordert b und die dritte erfordert c (c 3) für nichtlineare Terme. Berechnen Sie den Likelihood-Ratio Test für die kombinierten Teileffekte jeder Menge, und erhalten Sie . Der erwartete Wert einer Zufallsvariablen mit d Freiheitsgraden ist d, also subtrahiere d, um das Spielfeld auszugleichen. Dh, berechne . Wenn Sie F-Tests verwenden, multiplizieren Sie F mit seinem Zähler df, um die Skala zu erhalten.χ2L1,L2,L3χ2L1-ein,L2-b,L3-cχ2

Frank Harrell
quelle
Um dies zu bestätigen, berechnen Sie L1 als die Verringerung der Abweichung (-2 *), die sich aus der Einbeziehung der vier sozialen Variablen ergibt, die durch die df dieser vier Variablen angepasst wird. Und ebenfalls für L2 und L3?
B_Miner
Ich habe nicht die beste Notation verwendet. Ich meine die Likelihood-Ratio Statistik, die die Änderung der -2-Log-Likelihood beim Entfernen des zu testenden Variablensatzes darstellt. χ2
Frank Harrell
Würden Sie auch zugeben, dass die Ausarbeitung einer rein statistischen Lösung das Risiko birgt, ein mögliches übergreifendes Problem zu übersehen, bei dem alle drei Gruppen von Prädiktoren gleichzeitig auftretende Merkmale / Verhaltensweisen messen könnten? Könnte es ohne eine frühere-Ursachen-spätere Art von Grundlage für eine Kausalkette unmöglich sein, Kausalzusammenhänge in dieser Situation endgültig zu entwirren - wie auch immer unsere Berechnungen aussehen mögen? (Ich versuche zu
überlegen,
Sicher. Die Kausalkette muss verstanden werden, bevor mit der Modellierung begonnen wird.
Frank Harrell
@FrankHarrell Treffen diese Ergebnisse auch auf die Bestrafungswahrscheinlichkeit zu? Hat die bestrafte Wahrscheinlichkeit irgendwelche Eigenschaften, die sie von der Wahrscheinlichkeit in Bezug auf dieses Maß mit variabler Wichtigkeit unterscheiden? Könnten Sie Papiere vorschlagen, die dies genauer beschreiben? Vielen Dank.
13.
7

Vorschläge

  • Sie können für jeden Prädiktortyp mehrere individuelle Regressionen durchführen und mehrere Regressionen, ein angepasstes R-Quadrat, ein verallgemeinertes R-Quadrat oder ein anderes parsimony-angepasstes Maß für die Varianz miteinander vergleichen.
  • Sie können alternativ die allgemeine Literatur zu variabler Bedeutung durchsuchen ( siehe hier für eine Diskussion mit Links ). Dies würde dazu ermutigen, sich auf die Bedeutung einzelner Prädiktoren zu konzentrieren.
  • In einigen Situationen kann eine hierarchische Regression einen nützlichen Rahmen bieten. Sie würden einen Variablentyp in einen Block (z. B. kognitive Variablen) und einen anderen Typ (z. B. soziale Variablen) eingeben. Dies hilft bei der Beantwortung der Frage, ob ein Variablentyp einen anderen Typ überlagert.
  • Als Nebenprüfung können Sie eine Faktorenanalyse für die Prädiktorvariablen durchführen, um zu prüfen, ob die Korrelationen zwischen Prädiktorvariablen der Zuordnung von Variablen zu Typen entsprechen.

Vorbehalte

  • Variablentypen wie kognitive, soziale und Verhaltensvariablen sind breite Klassen von Variablen. Eine gegebene Studie wird immer nur eine Teilmenge der möglichen Variablen enthalten, und typischerweise ist eine solche Teilmenge im Verhältnis zu den möglichen Variablen klein. Darüber hinaus sind die gemessenen Variablen möglicherweise nicht das zuverlässigste oder valide Mittel zur Messung des beabsichtigten Konstrukts. Daher müssen Sie vorsichtig sein, wenn Sie einen breiteren Rückschluss auf die relative Bedeutung eines bestimmten Variablentyps ziehen, der über das tatsächlich gemessene Maß hinausgeht.
  • Sie müssen auch alle Verzerrungen in der Art und Weise berücksichtigen, in der die abhängige Variable gemessen wurde. Insbesondere in psychologischen Studien besteht die Tendenz, dass Selbstberichtsmaßnahmen gut mit dem Selbstbericht, der Fähigkeit mit der Fähigkeit, dem anderen Bericht mit dem anderen Bericht usw. korrelieren. Das Problem ist, dass der Messmodus über das eigentliche Konstrukt von Interesse hinaus eine große Auswirkung hat. Wenn also die abhängige Variable auf eine bestimmte Weise gemessen wird (z. B. Selbstbericht), sollten Sie größere Korrelationen mit einem Prädiktortyp nicht überinterpretieren, wenn dieser Typ auch Selbstbericht verwendet.
Jeromy Anglim
quelle
Ich habe es genossen, diese klare, hilfreiche Antwort zu lesen und werde sie mit einem Kollegen teilen.
Rolando2
6

Bedeutung

Als Erstes müssen Sie die "Wichtigkeit von Prädiktoren" operationalisieren. Ich gehe davon aus, dass dies so etwas wie "Empfindlichkeit des Mittelwerts gegenüber Änderungen der Prädiktorwerte" bedeutet. Da Ihre Prädiktoren gruppiert sind, ist die Empfindlichkeit des Mittelwerts für Gruppen von Prädiktoren interessanter als eine Variable für Variablenanalyse. Ich lasse offen, ob Sensibilität kausal verstanden wird. Diese Frage wird später aufgegriffen.

Drei Version von Bedeutung

Viele Abweichungen erklärt : Ich vermute, dass die erste Anlaufstelle für Psychologen wahrscheinlich eine Abweichungszerlegung ist, die ein Maß dafür liefert, wie viel Abweichung vom Ausgang durch die Varianz-Kovarianz-Struktur in jeder Gruppe von Prädiktoren erklärt wird. Da ich kein Experimentator bin, kann ich hier nicht viel vorschlagen, außer zu bemerken, dass das gesamte Konzept der "Varianzerklärung" für meinen Geschmack etwas unbegründet ist, auch ohne das Problem "Welche Summe welcher Quadrate". Andere können dem nicht zustimmen und es weiterentwickeln.

Große standardisierte Koeffizienten : SPSS bietet das (falsch benannte) Beta, um die Auswirkung auf eine Art und Weise zu messen, die variablenübergreifend vergleichbar ist. Es gibt mehrere Gründe, dies nicht zu verwenden, wie in Fox 'Regressionslehrbuch hier und anderswo erörtert . Hier bewerben sich alle. Es ignoriert auch die Gruppenstruktur.

Auf der anderen Seite, ich kann mir vorstellen , dass man könnte Prädiktoren in Gruppen und die Verwendung Kovarianzinformation standardisieren die Wirkung einer eine Standardabweichung Bewegung in allen von ihnen zu richten. Persönlich dämpft das Motto: "Wenn sich etwas nicht lohnt, lohnt es sich nicht gut zu machen" mein Interesse daran.

Große Randeffekte : Der andere Ansatz besteht darin, im Maßstab der Messungen zu bleiben und Randeffekte zwischen sorgfältig ausgewählten Stichprobenpunkten zu berechnen. Da Sie an Gruppen interessiert sind, ist es hilfreich, Punkte auszuwählen, um Gruppen von Variablen zu variieren, anstatt einzelne, z. B. um beide kognitiven Variablen gleichzeitig zu manipulieren. (Viel Gelegenheit für coole Grundstücke hier). Grundlegendes Papier hier . Das effectsPaket in R wird dies gut tun.

Hier gibt es zwei Einschränkungen:

  1. Wenn Sie dies tun, sollten Sie darauf achten, dass Sie nicht zwei kognitive Variablen auswählen, die zwar einzeln plausibel sind, z.

  2. Einige Variablen sind theoretisch nicht einmal manipulierbar, daher ist die Interpretation von Randeffekten als kausal heikler, obwohl immer noch nützlich.

Unterschiedliche Anzahl von Prädiktoren

Probleme ergeben sich aus der Kovarianzstruktur der gruppierten Variablen, über die wir uns normalerweise keine Gedanken machen, die wir aber für diese Aufgabe haben sollten.

Insbesondere bei der Berechnung von Randeffekten (oder für diesen Fall standardisierten Koeffizienten) auf Gruppen und nicht auf einzelne Variablen erleichtert der Fluch der Dimensionalität bei größeren Gruppen den Vergleich in Regionen, in denen es keine Fälle gibt. Mehr Prädiktoren in einer Gruppe führen zu einem dünn besiedelten Raum, sodass jede wichtige Messung mehr von Modellannahmen und weniger von Beobachtungen abhängt (aber Ihnen nicht sagt, dass ...). Dies sind jedoch dieselben Probleme wie in der Modellanpassungsphase Ja wirklich. Mit Sicherheit die gleichen wie bei einer modellbasierten Kausalverträglichkeitsprüfung.

Conjugateprior
quelle
2

Eine Methode besteht darin, die Variablensätze zu Garbenvariablen zu kombinieren. Diese Methode wurde ausgiebig in der Soziologie und verwandten Bereichen eingesetzt.

Refs:

Whitt, Hugh P. 1986. "The Sheaf Coefficient: Ein vereinfachter und erweiterter Ansatz." Social Science Research 15: 174-189.

GaryMarks
quelle