Ist ein Prädiktor mit größerer Varianz „besser“?

13

Ich habe eine Konzeptfrage zur "Grundstatistik". Als Student würde ich gerne wissen, ob ich darüber völlig falsch nachdenke und warum, wenn ja:

Nehmen wir an, ich versuche hypothetisch, die Beziehung zwischen "Anger Management Issues" und Scheidung (Ja / Nein) in einer logistischen Regression zu untersuchen, und ich habe die Option, zwei verschiedene Anger Management Scores zu verwenden - beide von 100.
Punktzahl 1 stammt aus Fragebogen-Bewertungsinstrument 1 und meiner anderen Wahl; Punktzahl 2 stammt aus einem anderen Fragebogen. Hypothetisch gesehen haben wir Grund zu der Annahme, dass Wutprobleme zu einer Scheidung führen.
Wenn in meiner Stichprobe von 500 Personen die Varianz von Punktzahl 1 viel höher ist als die von Punktzahl 2, gibt es irgendeinen Grund zu der Annahme, dass Punktzahl 1 aufgrund der Varianz besser als Prädiktor für eine Scheidung geeignet ist?

Das scheint mir instinktiv richtig, aber ist es so?

N26
quelle
Interessante Frage, ich glaube, Whubers Antwort erklärt es perfekt. Meine erste Antwort auf die Frage lautete: "Erhöhte Varianz bedeutet keine höherklassendiskriminierende Information".
Zhubarb

Antworten:

11

Ein paar kurze Punkte:

  • Die Varianz kann beliebig erhöht oder verringert werden, indem für Ihre Variable eine andere Skala verwendet wird. Das Multiplizieren einer Skala mit einer Konstanten größer als eins würde die Varianz erhöhen, die Vorhersagekraft der Variablen jedoch nicht ändern.
  • Möglicherweise verwechseln Sie Varianz mit Zuverlässigkeit. Wenn alles andere gleich ist (und davon ausgegangen wird, dass es mindestens eine echte Punktevorhersage gibt), sollte die Vorhersagekraft erhöht werden, wenn die Zuverlässigkeit, mit der Sie ein Konstrukt messen, erhöht wird. Sehen Sie sich diese Diskussion zur Korrektur der Dämpfung an .
  • Unter der Annahme, dass beide Skalen aus zwanzig 5-Punkte-Elementen bestanden und daher Gesamtwerte zwischen 20 und 100 aufwiesen, wäre auch die Version mit der größeren Varianz zuverlässiger (zumindest in Bezug auf die interne Konsistenz).
  • Die Zuverlässigkeit der internen Konsistenz ist nicht der einzige Maßstab für die Beurteilung eines psychologischen Tests, und es ist nicht der einzige Faktor, der die Vorhersagekraft einer Skala für ein bestimmtes Konstrukt von einer anderen unterscheidet.
Jeromy Anglim
quelle
9

Anhand eines einfachen Beispiels können wir herausfinden, worauf es ankommt.

Sei

Y.=C+γX1+ε

wobei und & ggr; Parameter sind, X 1 die Punktzahl auf dem ersten Instrument (oder der unabhängigen Variablen) ist und & egr ; einen unverzerrten iid-Fehler darstellt. Lassen Sie die Partitur auf dem zweiten Instrument mit dem ersten über in Beziehung stehenCγX1ε

X1=αX2+β.

Beispielsweise können die Bewertungen für das zweite Instrument zwischen 25 und 75 und für das erste zwischen 0 und 100 liegen, wobei . Die Varianz von X 1 ist α 2 mal die Varianz von X 2 . Trotzdem können wir umschreibenX1=2X250X1α2X2

Y=C+γ(αX2+β)=(C+βγ)+(γα)X2+ε=C+γX2+ε.

Die Parameter ändern sich und die Varianz der unabhängigen Variablen ändert sich , die Vorhersagefähigkeit des Modells bleibt jedoch unverändert .

Im Allgemeinen kann die Beziehung zwischen und X 2 nichtlinear sein. Welcher ist ein besserer Prädiktor für Y , hängt davon ab, welche eine engere lineare Beziehung zu Y hat . Daher handelt es sich nicht um eine Frage der Skalierung (was sich in der Varianz des X i widerspiegelt ), sondern muss durch die Beziehungen zwischen den Instrumenten und dem, was sie zur Vorhersage verwenden, entschieden werden. Diese Idee steht in engem Zusammenhang mit einer aktuellen Frage zur Auswahl unabhängiger Variablen in der Regression .X1X2YYXi

Es kann mildernde Faktoren geben. Zum Beispiel, wenn und X 2 diskrete Variablen sind und beide gleich gut mit Y verwandt sind , dann könnte diejenige mit größerer Varianz (wenn sie ausreichend gleichmäßig verteilt ist) feinere Unterscheidungen zwischen ihren Werten zulassen und dadurch mehr Präzision liefern. Eg , wenn beide Instrumente Fragebögen auf einer Skala 1-5 Likert sind, sind beide gleich gut mit korrelierten Y , und die Antworten auf X 1 sind alle 2 und 3 und die Antworten auf X 2 Ausbreitung unter 1 bis 5 sind, könnte sein , auf dieser Basis favorisiert.X1X2YYX1X2X2

whuber
quelle
1

Überprüfen Sie immer die Annahmen für den statistischen Test, den Sie verwenden!

Eine der Annahmen der logistischen Regression ist die Unabhängigkeit von Fehlern, was bedeutet, dass Datenfälle nicht in Beziehung gesetzt werden sollten. Z.B. Sie können nicht dieselben Personen zu unterschiedlichen Zeitpunkten messen, was ich befürchte, dass Sie mit Ihren Umfragen zum Wutmanagement getan haben.

Ich wäre auch besorgt, dass Sie bei zwei Wutmanagement-Umfragen im Grunde genommen dasselbe messen und Ihre Analyse unter Multikollinearität leiden könnte.

Parbury
quelle
1
Ich denke, N26 schlägt ein Gedankenexperiment vor. Dh, wenn Sie beim Entwerfen einer Studie die Wahl zwischen zwei Skalen haben, sollten Sie auf den ersten Blick die mit der größeren Varianz bevorzugen. Das Vorhandensein von zwei Prädiktoren, die dasselbe Konstrukt darstellen, jedoch unterschiedlich gemessen werden, verletzt nicht die Annahme der Unabhängigkeit von Beobachtungen.
Jeromy Anglim