Was sind die Probleme bei der Verwendung des prozentualen Ergebnisses bei der linearen Regression?

11

Ich habe eine Studie, in der viele Ergebnisse wie Prozentsätze dargestellt werden, und ich verwende mehrere lineare Regressionen, um die Auswirkung einiger kategorialer Variablen auf diese Ergebnisse zu bewerten.

Ich habe mich gefragt, ob es methodische Probleme gibt, ein solches Modell auf Prozentsätze anzuwenden, die zwischen 0 und 100 liegen, da eine lineare Regression davon ausgeht, dass das Ergebnis eine kontinuierliche Verteilung ist.

Bakaburg
quelle
1
Sind diese Prozentsätze kontinuierlich (wie zum Beispiel der Prozentsatz an Sahne in Milch) oder diskret (wie Binomialanteile, eine Zählung in einer Kategorie aus einer Gesamtzählung)?
Glen_b -State Monica
1
Ähm ... ich verstehe den Unterschied nicht. Sind sie nicht beide ununterbrochen? Wie auch immer, ich denke, die zweite beschreibt meine Daten besser, da wir über Menschen sprechen, die überhaupt nicht da sind.
Bakaburg
Die Verteilung der Zählungen geteilt durch die Zählungen ist definitiv diskret. In der Tat wird der Zähler normalerweise als Binomial modelliert, der Nenner wird konditioniert (als konstant behandelt), sodass das Verhältnis normalerweise als skaliertes Binomial behandelt wird. Selbst wenn der Nenner auch eine Zufallsvariable wäre, wäre das Verhältnis immer noch diskret, da sein Probenraum zählbar ist
Glen_b

Antworten:

17

Ich werde die Probleme ansprechen, die entweder für diskrete oder kontinuierliche Möglichkeiten relevant sind:

  1. Ein Problem mit der Beschreibung des Mittelwerts

    Sie haben eine begrenzte Antwort. Das Modell, das Sie anpassen, ist jedoch nicht begrenzt und kann daher direkt durch die Grenze sprengen. Einige Ihrer angepassten Werte sind möglicherweise nicht möglich, und vorhergesagte Werte müssen möglicherweise vorhanden sein.

    Die wahre Beziehung muss schließlich flacher werden als in der Mitte, wenn sie sich den Grenzen nähert, so dass erwartet wird, dass sie sich auf irgendeine Weise verbiegt.

  2. Ein Problem mit der Beschreibung der Varianz

    Wenn sich der Mittelwert der Grenze nähert, nimmt auch die Varianz tendenziell ab, wobei andere Dinge gleich sind. Es gibt weniger Raum zwischen dem Mittelwert und der Grenze, so dass die Gesamtvariabilität tendenziell abnimmt (andernfalls würde der Mittelwert tendenziell von der Grenze weggezogen, indem Punkte im Durchschnitt weiter entfernt auf der Seite liegen, die nicht nahe an der Grenze liegt.

(Wenn tatsächlich alle Bevölkerungswerte in einer Nachbarschaft genau an der Grenze wären, wäre die Varianz dort Null.)

Ein Modell, das sich mit einer solchen Grenze befasst, sollte solche Effekte berücksichtigen.

Wenn der Anteil für eine Zählvariable bestimmt ist, ist ein allgemeines Modell für die Verteilung des Anteils ein binomisches GLM. Es gibt verschiedene Optionen für die Form der Beziehung zwischen dem mittleren Anteil und den Prädiktoren, aber die häufigste wäre eine logistische GLM (mehrere andere Optionen werden häufig verwendet).

Wenn der Anteil kontinuierlich ist (wie der Prozentsatz der Sahne in der Milch), gibt es eine Reihe von Optionen. Beta-Regression scheint eine ziemlich häufige Wahl zu sein. Auch hier kann eine logistische Beziehung zwischen dem Mittelwert und den Prädiktoren verwendet werden, oder es kann eine andere funktionale Form verwendet werden.

Siehe auch Regression für ein Ergebnis (Verhältnis oder Bruchteil) zwischen 0 und 1 .

Glen_b - Monica neu starten
quelle
1
+1 und ich haben uns erlaubt, einen Link zu dem hinzuzufügen, was vielleicht als unser "Master" -Thread zu diesem Thema angesehen werden könnte (Gungs Antwort dort behandelt auch Beta- und Logistikoptionen).
Amöbe sagt Reinstate Monica
2
Ein einfaches allgemeines Argument ist, wenn der Mittelwert 0 ist, was nur möglich ist, wenn alle Werte 0 sind, und in ähnlicher Weise mit 1 = 100% und allen Werten 1. Die Varianz muss also an den Extremen 0 sein, unabhängig davon, ob Proportionen basieren Zählen oder Messen. Obwohl es möglich ist, dass alle anderen Werte konstant sind, ist dies in der Praxis sehr selten. Daher ist die Varianz für einen Wert zwischen 0 und 1 am höchsten.
Nick Cox
Könnten Sie einige Referenzen für die beiden beschriebenen Probleme bereitstellen?
user1607
3

Dies ist genau das Gleiche wie der Fall, wenn das Ergebnis zwischen 0 und 1 liegt, und dieser Fall wird normalerweise mit einem verallgemeinerten linearen Modell (GLM) wie der logistischen Regression behandelt. Im Internet gibt es viele hervorragende Grundlagen für die logistische Regression (und andere GLMs), und es gibt auch ein bekanntes Buch von Agresti zu diesem Thema.

Die Beta-Regression ist eine praktikable, aber kompliziertere Alternative. Möglicherweise funktioniert die logistische Regression für Ihre Anwendung einwandfrei und ist mit den meisten statistischen Programmen in der Regel einfacher zu implementieren.

Warum nicht die gewöhnliche Regression der kleinsten Quadrate verwenden? Tatsächlich tun es Menschen, manchmal unter dem Namen "lineares Wahrscheinlichkeitsmodell" (LPM). Der offensichtlichste Grund, warum LPMs "schlecht" sind, ist, dass es keine einfache Möglichkeit gibt, das Ergebnis auf einen bestimmten Bereich zu beschränken, und dass Sie Vorhersagen über 1 (oder 100% oder einer anderen endlichen Obergrenze) und unter 0 (oder) erhalten können eine andere Untergrenze). Aus dem gleichen Grund sind Vorhersagen in der Nähe der Obergrenze systematisch zu hoch und Vorhersagen in der Nähe der Untergrenze tendenziell zu niedrig. Die der linearen Regression zugrunde liegende Mathematik geht ausdrücklich davon aus, dass solche Tendenzen nicht existieren. Es gibt normalerweise keinen guten Grund, ein LPM über die logistische Regression zu stellen.

Abgesehen davon stellt sich heraus, dass alle OLS-Regressionsmodelle, einschließlich LPMs, als eine spezielle Art von GLM definiert werden können, und in diesem Zusammenhang beziehen sich LPMs auf die logistische Regression.

Shadowtalker
quelle
4
Obwohl ein Großteil dieser Antwort insgesamt sinnvoll erscheint, enthält sie einige Fehlinformationen, die die Leser verwirren könnten. Die Darstellung der logistischen Regression im ersten Absatz klingt wie eine Beschreibung einer logarithmischen Transformation der abhängigen Variablen, gefolgt von einer linearen Regression: Es handelt sich nicht um eine logistische Regression. Auch die Interpretation der Koeffizienten ist nicht ganz richtig. Ein wichtigeres Problem bei "LPMs" besteht darin, dass Daten in der Nähe der Extreme wahrscheinlich asymmetrische Verteilungen der Residuen aufweisen, was eine wichtige Verletzung der iid-Annahme der Regression darstellt.
whuber
Ich dachte nicht, dass es sich lohnt, sich auf Quotenverhältnisse und dergleichen einzulassen. Ich werde das Zeug einfach ausziehen und das OP es dann nachlesen lassen. Auch guter Punkt über die Residuen.
Shadowtalker
(+1) Vielen Dank für Ihre konstruktiven Antworten!
whuber
2

Es könnte sich lohnen, die Beta-Regression zu untersuchen (für die es meines Wissens ein R-Paket gibt), die für solche Probleme gut geeignet zu sein scheint.

http://www.jstatsoft.org/v34/i02/paper

Dikran Beuteltier
quelle
7
Ihre Antwort wäre sogar noch besser, wenn Sie auf einige der Hauptgründe stoßen, warum die lineare Regression leidet, wenn das Ergebnis ein Prozentsatz ist.
Alexis