OLS vs. logistische Regression für explorative Analysen mit binärem Ergebnis

8

Im idealisierten Logistikmodell erhalten wir eine S-förmige Kurve, die jede kontinuierliche IV mit dem DV verbindet. In der Praxis tritt diese S-Form jedoch selten auf, was den logistischen Ansatz für solche Datentypen etwas weniger überlegen erscheinen lässt. Natürlich können vorhergesagte Wahrscheinlichkeiten, dass jede Beobachtung auf dem DV "1" sein wird, in der logistischen und nicht in der OLS-Regression verwendet werden, da diese Wahrscheinlichkeiten in letzterem die Grenzen von [0,1] überschreiten können. Aber zu Erkundungszwecken und wenn wir keine vorhergesagten Wahrscheinlichkeiten benötigen, wie vernünftig ist es, OLS zu verwenden, um zu sehen, welche IV starke oder moderate oder schwache Beziehungen zum DV haben? Würde dies nicht eine Art multivariate Version der Punkt-Biserial-Korrelation darstellen? (Standardisierte Regressionskoeffizienten, ganz zu schweigen von Kollinearitätsstatistiken und Teildiagrammen,

rolando2
quelle

Antworten:

7

Wenn die erklärenden Variablen Werte über die gesamte reelle Linie haben, ist es wenig sinnvoll, eine Erwartung, die ein Anteil in als lineare Funktion der über die gesamte reelle Linie definierten Variablen auszudrücken . Wenn die Sigmoidform der Logit-Transformation die Form nicht beschreibt, ist es möglicherweise am besten, nach einer anderen Transformation zu suchen, die in abbildet .[ 0 , 1 ] ( - , )[0,1][0,1](,)

Michael R. Chernick
quelle
4
+1. Hinzufügen zu das letzte , was , sagte Michael, Probit und kostenlose Log-Log sind zwei weitere Funktionen , die Karte bis , die in vielen Softwarepaketen umgesetzt werden. ( - , )(0,1)(,)
Makro
3
Beachten Sie auch, dass nahezu jede Funktion, die einer CDF für eine Realwert-Zufallsvariable entspricht, ein Kandidat ist. Logistic, Probit und C-log-log sind drei solche Funktionen (hyperbolische Sekanten-, Normal- und Extremwert-Zufallsvariablen). Sie können also auch "im Prinzip" eine Skew-Normal-Link-Funktion oder eine doppelte Exponentialfunktion oder t usw. usw. verwenden. Die T-Verteilung ist nützlich, wenn Freiheitsgrade als unbekannt behandelt werden, da Sie ungefähr zwischen Probit und Logit-Link balancieren können Funktion.
Wahrscheinlichkeitslogik
@probabilityislogic, Sie haben einen wichtigen Punkt gemacht, aber nitpick: Ich denke, die logistische Funktion ist die (inverse) CDF der logistischen Verteilung, nicht die hyperbolische Sekantenverteilung.
Makro
Danke an alle. Folgt aus Ihren Antworten, dass Sie praktisch nie eine Punkt-Biserial-Korrelation verwenden würden?
Rolando2
Folgendes geschah: "OLS-Regression. Bei Verwendung mit einer binären Antwortvariablen wird dieses Modell als lineares Wahrscheinlichkeitsmodell bezeichnet und kann zur Beschreibung bedingter Wahrscheinlichkeiten verwendet werden. [...] Für eine eingehendere Diskussion von [ ...] Probleme mit dem linearen Wahrscheinlichkeitsmodell, siehe Long (1997, S. 38-40). Long, J. Scott (1997). Regressionsmodelle für kategoriale und begrenzte abhängige Variablen. Thousand Oaks, CA: Sage Publications. " ats.ucla.edu/stat/stata/dae/logit.htm
rolando2