Lineare Regression, wenn Y begrenzt und diskret ist

12

Die Frage ist einfach: Ist es angemessen, eine lineare Regression zu verwenden, wenn Y begrenzt und diskret ist (z. B. die Testergebnisse 1 bis 100, einige vordefinierte Rangfolgen 1 bis 17)? Ist es in diesem Fall "nicht gut", eine lineare Regression zu verwenden, oder ist es völlig falsch, sie zu verwenden?

Meister Shi
quelle

Antworten:

9

Wenn eine Antwort oder ein Ergebnis begrenzt ist, stellen sich bei der Anpassung eines Modells verschiedene Fragen, darunter die folgenden: Y

  1. Jedes Modell, das Werte für die Antwort außerhalb dieser Grenzen vorhersagen könnte, ist im Prinzip zweifelhaft. Daher könnte ein lineares Modell problematisch sein, da es für die Prädiktoren und die Koeffizienten keine Grenzen für wenn die selbst in eine oder beide Richtungen unbegrenzt sind. Die Beziehung könnte jedoch schwach genug sein, um nicht zu beißen, und / oder Vorhersagen könnten innerhalb der Grenzen über den beobachteten oder plausiblen Bereich der Prädiktoren bleiben. In einem Extremfall spielt es kaum eine Rolle, zu welchem ​​Modell man passt , wenn die Reaktion ein Mittelwert Rauschen ist.Y^=XbXbX+

  2. Da die Antwort ihre Grenzen nicht überschreiten kann, ist eine nichtlineare Beziehung oft plausibler, da vorhergesagte Antworten nachlassen, um sich asymptotisch den Grenzen zu nähern. Sigmoidkurven oder -flächen, wie sie von Logit- oder Probit-Modellen vorhergesagt werden, sind in dieser Hinsicht attraktiv und sind jetzt nicht schwer anzupassen. Eine Antwort wie Alphabetisierung (oder Bruchteil, die eine neue Idee annimmt) zeigt häufig eine solche Sigmoidkurve zeitlich und plausibel mit fast jedem anderen Prädiktor.

  3. Eine begrenzte Antwort kann nicht die Varianz-Eigenschaften haben, die bei einer einfachen oder Vanille-Regression erwartet werden. Wenn sich die mittlere Antwort der unteren und oberen Grenze nähert, nähert sich die Varianz notwendigerweise immer Null.

Ein Modell sollte entsprechend der Funktionsweise und dem Wissen über den zugrunde liegenden Erzeugungsprozess ausgewählt werden. Ob der Kunde oder das Publikum über bestimmte Modellfamilien Bescheid weiß, kann auch die Praxis leiten.

Beachten Sie, dass ich pauschale Urteile wie gut / nicht gut, angemessen / nicht angemessen, richtig / falsch absichtlich vermeide. Alle Modelle sind bestenfalls Näherungswerte, und welche Näherungswerte ansprechen oder für ein Projekt gut genug sind, ist nicht so einfach vorherzusagen. Normalerweise bevorzuge ich Logit-Modelle als erste Wahl für begrenzte Antworten, aber selbst diese Präferenz basiert teilweise auf Gewohnheit (z. B. das Vermeiden von Probit-Modellen ohne sehr guten Grund) und teilweise darauf, wo ich Ergebnisse melden werde, normalerweise an Leserschaften, die oder sollte statistisch gut informiert sein.

Ihre Beispiele für diskrete Skalen beziehen sich auf die Punkte 1-100 (bei Aufgaben, die ich markiere, ist 0 sicherlich möglich!) Oder auf die Ranglisten 1-17. Bei solchen Skalen würde ich normalerweise daran denken, kontinuierliche Modelle an Antworten anzupassen, die auf [0, 1] skaliert sind. Es gibt jedoch Praktiker von ordinalen Regressionsmodellen, die solche Modelle gerne an Skalen mit einer relativ großen Anzahl diskreter Werte anpassen würden. Ich bin froh, wenn sie antworten, wenn sie so interessiert sind.

Nick Cox
quelle
7

Ich arbeite in der Gesundheitsforschung. Wir erfassen von Patienten gemeldete Ergebnisse, z. B. körperliche Funktion oder depressive Symptome, und diese werden häufig in dem von Ihnen genannten Format bewertet: eine Skala von 0 bis N, die durch Zusammenfassen aller einzelnen Fragen in der Skala erstellt wird.

Die überwiegende Mehrheit der von mir überprüften Literatur hat gerade ein lineares Modell verwendet (oder ein hierarchisches lineares Modell, wenn die Daten aus wiederholten Beobachtungen stammen). Ich habe noch niemanden gesehen, der den Vorschlag von @ NickCox für ein (gebrochenes) Logit-Modell verwendet, obwohl es ein absolut plausibles Modell ist.

θ

Die folgende Grafik stammt aus meiner bevorstehenden Dissertationsarbeit. Hier passe ich ein lineares Modell (rot) an einen depressiven Symptomfrage-Score an, der in Z-Scores konvertiert wurde, und ein (erklärendes) IRT-Modell in Blau an dieselben Fragen. Grundsätzlich liegen die Koeffizienten für beide Modelle im gleichen Maßstab (dh in Standardabweichungen). Die Größe der Koeffizienten stimmt tatsächlich ziemlich gut überein. Wie Nick angedeutet hat, sind alle Modelle falsch. Das lineare Modell darf jedoch nicht zu falsch sein.

Geben Sie hier die Bildbeschreibung ein

(Hinweis: Das obige Modell wurde unter Verwendung des Phil Chalmers- mirtPakets in R. Graph angepasst, das mit ggplot2und erstellt wurde ggthemes. Das Farbschema basiert auf dem Standardfarbschema von Stata.)

Weiwen Ng
quelle
6
Nur weil lineare Modelle weit verbreitet sind, heißt das nicht, dass sie angemessen sind. Viele Menschen verwenden lineare Modelle, weil sie nur das wissen oder damit vertraut sind.
qwr
1
In der medizinischen Literatur gibt es besonders viele schlechte Praktiken, die von der Ideologie des Typs "Dies ist, was dieses Feld / diese Zeitschrift tut" propagiert werden. In der Regel würde ich etwas nicht verwenden oder nicht verwenden, nur weil es in der medizinischen Forschung so häufig vorkommt.
LSC
1

Sehen Sie sich die vorhergesagten Werte an und prüfen Sie, ob sie ungefähr die gleiche Verteilung wie die ursprünglichen Ys haben. Wenn dies der Fall ist, ist eine lineare Regression wahrscheinlich in Ordnung. und Sie werden wenig gewinnen, wenn Sie Ihr Modell verbessern.

mzuba
quelle
1

Eine lineare Regression kann solche Daten "angemessen" beschreiben, ist jedoch unwahrscheinlich. Viele Annahmen der linearen Regression werden bei dieser Art von Daten in einem solchen Ausmaß verletzt, dass die lineare Regression schlecht beraten wird. Ich werde nur einige Annahmen als Beispiele wählen,

  1. Normalität - Selbst wenn die Diskretion solcher Daten ignoriert wird, neigen solche Daten dazu, extreme Verstöße gegen die Normalität aufzuweisen, da die Verteilungen durch die Grenzen "abgeschnitten" werden.
  2. Homoskedastizität - Diese Art von Daten verletzt tendenziell die Homoskedastizität. Die Varianzen sind im Vergleich zu den Kanten tendenziell größer, wenn der tatsächliche Mittelwert zur Mitte des Bereichs liegt.
  3. Linearität - Da der Bereich von Y begrenzt ist, wird die Annahme automatisch verletzt.

Die Verstöße gegen diese Annahmen werden gemindert, wenn die Daten dazu neigen, um die Mitte des Bereichs von den Rändern weg zu fallen. Die lineare Regression ist jedoch nicht das optimale Werkzeug für diese Art von Daten. Viel bessere Alternativen könnten die binomiale Regression oder die Poisson-Regression sein.

Stat_Programmer
quelle
2
Es ist schwer zu erkennen, dass die Poisson-Regression ein Kandidat für doppelt begrenzte Antworten ist.
Nick Cox
0

Wenn die Antwort nur wenige Kategorien umfasst, können Sie möglicherweise Klassifizierungsmethoden oder ordinale Regression verwenden, wenn Ihre Antwortvariable ordinal ist.

Eine einfache lineare Regression gibt Ihnen weder diskrete Kategorien noch begrenzte Antwortvariablen. Letzteres kann mithilfe eines Logit-Modells wie bei der logistischen Regression behoben werden. Für so etwas wie ein Testergebnis mit 100 Kategorien 1-100 können Sie auch Ihre Vorhersage vereinfachen und eine begrenzte Antwortvariable verwenden.

qwr
quelle
0

Verwenden Sie ein cdf (kumulative Verteilungsfunktion aus Statistiken). Wenn Ihr Modell y = xb + e ist, ändern Sie es in y = cdf (xb + e). Sie müssen Ihre abhängigen Variablendaten neu skalieren, um zwischen 0 und 1 zu liegen. Wenn es sich um positive Zahlen handelt, dividieren Sie diese durch max. Nehmen Sie Ihre Modellvorhersagen und multiplizieren Sie sie mit derselben Zahl. Überprüfen Sie dann die Passform und prüfen Sie, ob die begrenzten Vorhersagen die Situation verbessern.

Sie möchten wahrscheinlich einen vordefinierten Algorithmus verwenden, um die Statistiken für Sie zu verwalten.

Dougie
quelle
1
Dies scheint zwei Tatsachen zu verwechseln: (1) Begrenzte Antworten sollten auf 0 bis 1 skaliert werden, damit logit, probit und ähnliche Modelle angewendet werden. (2) cdfs variieren ebenfalls zwischen 0 und 1. Wenn Sie eine gebrochene Antwort als solche behandeln, sind Sie nicht Modellieren Sie nicht das PDF.
Nick Cox