Ich habe eine Konzeptfrage zur "Grundstatistik". Als Student würde ich gerne wissen, ob ich darüber völlig falsch nachdenke und warum, wenn ja:
Nehmen wir an, ich versuche hypothetisch, die Beziehung zwischen "Anger Management Issues" und Scheidung (Ja / Nein) in einer logistischen Regression zu untersuchen, und ich habe die Option, zwei verschiedene Anger Management Scores zu verwenden - beide von 100.
Punktzahl 1 stammt aus Fragebogen-Bewertungsinstrument 1 und meiner anderen Wahl; Punktzahl 2 stammt aus einem anderen Fragebogen. Hypothetisch gesehen haben wir Grund zu der Annahme, dass Wutprobleme zu einer Scheidung führen.
Wenn in meiner Stichprobe von 500 Personen die Varianz von Punktzahl 1 viel höher ist als die von Punktzahl 2, gibt es irgendeinen Grund zu der Annahme, dass Punktzahl 1 aufgrund der Varianz besser als Prädiktor für eine Scheidung geeignet ist?
Das scheint mir instinktiv richtig, aber ist es so?
quelle
Antworten:
Ein paar kurze Punkte:
quelle
Anhand eines einfachen Beispiels können wir herausfinden, worauf es ankommt.
Sei
wobei und & ggr; Parameter sind, X 1 die Punktzahl auf dem ersten Instrument (oder der unabhängigen Variablen) ist und & egr ; einen unverzerrten iid-Fehler darstellt. Lassen Sie die Partitur auf dem zweiten Instrument mit dem ersten über in Beziehung stehenC γ X1 ε
Beispielsweise können die Bewertungen für das zweite Instrument zwischen 25 und 75 und für das erste zwischen 0 und 100 liegen, wobei . Die Varianz von X 1 ist α 2 mal die Varianz von X 2 . Trotzdem können wir umschreibenX1=2X2−50 X1 α2 X2
Die Parameter ändern sich und die Varianz der unabhängigen Variablen ändert sich , die Vorhersagefähigkeit des Modells bleibt jedoch unverändert .
Im Allgemeinen kann die Beziehung zwischen und X 2 nichtlinear sein. Welcher ist ein besserer Prädiktor für Y , hängt davon ab, welche eine engere lineare Beziehung zu Y hat . Daher handelt es sich nicht um eine Frage der Skalierung (was sich in der Varianz des X i widerspiegelt ), sondern muss durch die Beziehungen zwischen den Instrumenten und dem, was sie zur Vorhersage verwenden, entschieden werden. Diese Idee steht in engem Zusammenhang mit einer aktuellen Frage zur Auswahl unabhängiger Variablen in der Regression .X1 X2 Y Y Xi
Es kann mildernde Faktoren geben. Zum Beispiel, wenn und X 2 diskrete Variablen sind und beide gleich gut mit Y verwandt sind , dann könnte diejenige mit größerer Varianz (wenn sie ausreichend gleichmäßig verteilt ist) feinere Unterscheidungen zwischen ihren Werten zulassen und dadurch mehr Präzision liefern. Eg , wenn beide Instrumente Fragebögen auf einer Skala 1-5 Likert sind, sind beide gleich gut mit korrelierten Y , und die Antworten auf X 1 sind alle 2 und 3 und die Antworten auf X 2 Ausbreitung unter 1 bis 5 sind, könnte sein , auf dieser Basis favorisiert.X1 X2 Y Y X1 X2 X2
quelle
Überprüfen Sie immer die Annahmen für den statistischen Test, den Sie verwenden!
Eine der Annahmen der logistischen Regression ist die Unabhängigkeit von Fehlern, was bedeutet, dass Datenfälle nicht in Beziehung gesetzt werden sollten. Z.B. Sie können nicht dieselben Personen zu unterschiedlichen Zeitpunkten messen, was ich befürchte, dass Sie mit Ihren Umfragen zum Wutmanagement getan haben.
Ich wäre auch besorgt, dass Sie bei zwei Wutmanagement-Umfragen im Grunde genommen dasselbe messen und Ihre Analyse unter Multikollinearität leiden könnte.
quelle