Ich habe eine Studie, in der viele Ergebnisse wie Prozentsätze dargestellt werden, und ich verwende mehrere lineare Regressionen, um die Auswirkung einiger kategorialer Variablen auf diese Ergebnisse zu bewerten.
Ich habe mich gefragt, ob es methodische Probleme gibt, ein solches Modell auf Prozentsätze anzuwenden, die zwischen 0 und 100 liegen, da eine lineare Regression davon ausgeht, dass das Ergebnis eine kontinuierliche Verteilung ist.
regression
ratio
percentage
Bakaburg
quelle
quelle
Antworten:
Ich werde die Probleme ansprechen, die entweder für diskrete oder kontinuierliche Möglichkeiten relevant sind:
Ein Problem mit der Beschreibung des Mittelwerts
Sie haben eine begrenzte Antwort. Das Modell, das Sie anpassen, ist jedoch nicht begrenzt und kann daher direkt durch die Grenze sprengen. Einige Ihrer angepassten Werte sind möglicherweise nicht möglich, und vorhergesagte Werte müssen möglicherweise vorhanden sein.
Die wahre Beziehung muss schließlich flacher werden als in der Mitte, wenn sie sich den Grenzen nähert, so dass erwartet wird, dass sie sich auf irgendeine Weise verbiegt.
Ein Problem mit der Beschreibung der Varianz
Wenn sich der Mittelwert der Grenze nähert, nimmt auch die Varianz tendenziell ab, wobei andere Dinge gleich sind. Es gibt weniger Raum zwischen dem Mittelwert und der Grenze, so dass die Gesamtvariabilität tendenziell abnimmt (andernfalls würde der Mittelwert tendenziell von der Grenze weggezogen, indem Punkte im Durchschnitt weiter entfernt auf der Seite liegen, die nicht nahe an der Grenze liegt.
(Wenn tatsächlich alle Bevölkerungswerte in einer Nachbarschaft genau an der Grenze wären, wäre die Varianz dort Null.)
Ein Modell, das sich mit einer solchen Grenze befasst, sollte solche Effekte berücksichtigen.
Wenn der Anteil für eine Zählvariable bestimmt ist, ist ein allgemeines Modell für die Verteilung des Anteils ein binomisches GLM. Es gibt verschiedene Optionen für die Form der Beziehung zwischen dem mittleren Anteil und den Prädiktoren, aber die häufigste wäre eine logistische GLM (mehrere andere Optionen werden häufig verwendet).
Wenn der Anteil kontinuierlich ist (wie der Prozentsatz der Sahne in der Milch), gibt es eine Reihe von Optionen. Beta-Regression scheint eine ziemlich häufige Wahl zu sein. Auch hier kann eine logistische Beziehung zwischen dem Mittelwert und den Prädiktoren verwendet werden, oder es kann eine andere funktionale Form verwendet werden.
Siehe auch Regression für ein Ergebnis (Verhältnis oder Bruchteil) zwischen 0 und 1 .
quelle
Dies ist genau das Gleiche wie der Fall, wenn das Ergebnis zwischen 0 und 1 liegt, und dieser Fall wird normalerweise mit einem verallgemeinerten linearen Modell (GLM) wie der logistischen Regression behandelt. Im Internet gibt es viele hervorragende Grundlagen für die logistische Regression (und andere GLMs), und es gibt auch ein bekanntes Buch von Agresti zu diesem Thema.
Die Beta-Regression ist eine praktikable, aber kompliziertere Alternative. Möglicherweise funktioniert die logistische Regression für Ihre Anwendung einwandfrei und ist mit den meisten statistischen Programmen in der Regel einfacher zu implementieren.
Warum nicht die gewöhnliche Regression der kleinsten Quadrate verwenden? Tatsächlich tun es Menschen, manchmal unter dem Namen "lineares Wahrscheinlichkeitsmodell" (LPM). Der offensichtlichste Grund, warum LPMs "schlecht" sind, ist, dass es keine einfache Möglichkeit gibt, das Ergebnis auf einen bestimmten Bereich zu beschränken, und dass Sie Vorhersagen über 1 (oder 100% oder einer anderen endlichen Obergrenze) und unter 0 (oder) erhalten können eine andere Untergrenze). Aus dem gleichen Grund sind Vorhersagen in der Nähe der Obergrenze systematisch zu hoch und Vorhersagen in der Nähe der Untergrenze tendenziell zu niedrig. Die der linearen Regression zugrunde liegende Mathematik geht ausdrücklich davon aus, dass solche Tendenzen nicht existieren. Es gibt normalerweise keinen guten Grund, ein LPM über die logistische Regression zu stellen.
Abgesehen davon stellt sich heraus, dass alle OLS-Regressionsmodelle, einschließlich LPMs, als eine spezielle Art von GLM definiert werden können, und in diesem Zusammenhang beziehen sich LPMs auf die logistische Regression.
quelle
Es könnte sich lohnen, die Beta-Regression zu untersuchen (für die es meines Wissens ein R-Paket gibt), die für solche Probleme gut geeignet zu sein scheint.
http://www.jstatsoft.org/v34/i02/paper
quelle