Ich weiß, dass bei der linearen Regression die Antwortvariable stetig sein muss, aber warum ist das so? Ich kann nichts online finden, was erklärt, warum ich keine diskreten Daten für die Antwortvariable verwenden kann.
quelle
Ich weiß, dass bei der linearen Regression die Antwortvariable stetig sein muss, aber warum ist das so? Ich kann nichts online finden, was erklärt, warum ich keine diskreten Daten für die Antwortvariable verwenden kann.
Nichts hindert Sie daran, eine lineare Regression für zwei beliebige Spalten von Zahlen zu verwenden. Es gibt Zeiten, in denen es sogar eine vernünftige Wahl ist.
Die Eigenschaften von dem, was Sie herausholen, werden jedoch nicht unbedingt nützlich sein (z. B. werden sie nicht unbedingt alles sein, was Sie möchten).
Im Allgemeinen wird mit der Regression versucht, eine Beziehung zwischen dem bedingten Mittelwert von Y und dem Prädiktor zu finden, dh eine Beziehung mit einer Form von ; Das Verhalten der bedingten Erwartung zu modellieren ist wohl das, was "Regression" ist . [Lineare Regression ist, wenn Sie eine bestimmte Form für annehmen ]
Betrachten Sie zum Beispiel einen extremen Fall von Diskriminanz, eine Antwortvariable, deren Verteilung entweder 0 oder 1 ist und die den Wert 1 mit einer Wahrscheinlichkeit annimmt, die sich ändert, wenn sich ein Prädiktor ( ) ändert. Das heißt .
Wenn Sie diese Art von Beziehung mit einem linearen Regressionsmodell kombinieren, werden abgesehen von einem engen Intervall Werte für vorhergesagt , die unmöglich sind - entweder unter oder über :
In der Tat ist es auch möglich zu sehen, dass, wenn sich die Erwartung den Grenzen nähert, die Werte immer häufiger den Wert an dieser Grenze annehmen müssen, so dass ihre Varianz kleiner wird, als wenn die Erwartung in der Nähe der Mitte wäre - die Varianz muss auf 0 abnehmen Bei einer normalen Regression werden die Gewichte falsch gewichtet, und die Daten in dem Bereich, in dem die bedingte Erwartung nahe 0 oder 1 liegt, werden untergewichtet aus einer bekannten Gesamtzahl für diese Beobachtung)
Außerdem erwarten wir normalerweise, dass der bedingte Mittelwert in Richtung der oberen und unteren Grenze asymptotisch ist, was bedeutet, dass die Beziehung normalerweise gekrümmt und nicht gerade ist, sodass unsere lineare Regression wahrscheinlich auch im Datenbereich einen Fehler macht.
Ähnliche Probleme treten bei Daten auf, die nur auf einer Seite begrenzt sind (z. B. Zählungen ohne obere Grenze), wenn Sie sich in der Nähe dieser einen Grenze befinden.
Es ist möglich (wenn auch selten), diskrete Daten zu haben, die an keinem Ende begrenzt sind. Wenn die Variable viele verschiedene Werte annimmt, kann die Diskriminanz von relativ geringer Bedeutung sein, solange die Beschreibung des Mittelwerts und der Varianz durch das Modell angemessen ist.
Hier ist ein Beispiel, bei dem es durchaus sinnvoll wäre, lineare Regression zu verwenden:
Auch wenn in einem dünnen Streifen von x-Werten nur wenige unterschiedliche y-Werte zu beobachten sind (etwa 10 für Intervalle der Breite 1), kann die Erwartung gut geschätzt werden, und sogar Standardfehler und p- Werte und Konfidenzintervalle sind in diesem speziellen Fall mehr oder weniger angemessen. Vorhersageintervalle funktionieren in der Regel etwas weniger gut (da sich die Nicht-Normalität in diesem Fall direkter auswirkt).
-
Wenn Sie Hypothesentests durchführen oder Konfidenz- oder Vorhersageintervalle berechnen möchten, setzen die üblichen Verfahren die Normalität voraus. Unter bestimmten Umständen kann das von Bedeutung sein. Es ist jedoch möglich zu schließen, ohne diese bestimmte Annahme zu treffen.
Ich kann keinen Kommentar abgeben, daher antworte ich: Bei einer normalen linearen Regression muss die Antwortvariable nicht stetig sein, Ihre Annahme lautet also nicht:
aber ist:
Die gewöhnliche lineare Regression ergibt sich aus der Minimierung der quadratischen Residuen. Diese Methode wird für kontinuierliche und diskrete Variablen als geeignet erachtet (siehe Gauß-Mark des Theorems). Natürlich beruhten die allgemein verwendeten Konfidenz- oder Vorhersageintervalle und Hypothesentests auf einer Normalverteilungsannahme, wie Glen_b richtig dargelegt hat, die OLS-Schätzungen von Parametern jedoch nicht.
quelle
Andererseits kann im verallgemeinerten linearen Modell die Antwortvariable diskret / kategorisch sein (logistische Regression). Oder zählen (Poisson-Regression).
Bearbeiten, um mark999 zu adressieren und die Kommentare von remapt zu ändern.
Lineare Regression ist ein allgemeiner Begriff, der von Menschen unterschiedlich verwendet werden kann. Es gibt nichts, was uns daran hindert, es für eine diskrete Variable zu verwenden, ODER die unabhängige Variable und die abhängige Variable sind nicht linear.
Wenn wir nichts annehmen und eine lineare Regression ausführen, können wir immer noch Ergebnisse erzielen. Und wenn die Ergebnisse unseren Anforderungen entsprechen, ist der gesamte Prozess in Ordnung. Wie Glan_b jedoch sagte
Ich habe diese Antwort, weil ich annehme, dass OP die lineare Regression aus dem klassischen Statistikbuch fragt, wo wir normalerweise diese Annahme haben, wenn wir lineare Regression lehren.
quelle
Das tut es nicht. Wenn das Modell funktioniert, wen interessiert das?
Aus theoretischer Sicht sind die obigen Antworten richtig. In der Praxis hängt jedoch alles von der Domäne Ihrer Daten und der Vorhersagekraft Ihres Modells ab.
Ein Beispiel aus der Praxis ist das alte MDS-Insolvenzmodell. Dies war einer der Risikofrühergebnisse, anhand derer die Kreditgeber von Verbraucherkrediten vorhersagten, mit welcher Wahrscheinlichkeit ein Kreditnehmer Konkurs anmelden würde. Dieses Modell verwendete detaillierte Daten aus der Kreditauskunft des Kreditnehmers und ein binäres 0/1-Flag, um den Konkurs während des Vorhersagezeitraums anzuzeigen. Dann fütterte dann diese Daten in ... yep .. Sie ahnten es.
Eine einfache alte lineare Regression
Ich hatte einmal die Gelegenheit, mit einem der Leute zu sprechen, die dieses Modell gebaut haben. Ich fragte ihn nach der Verletzung von Annahmen. Er erklärte, dass es ihm egal sei, obwohl es die Annahmen über Residuen usw. völlig verletze.
Stellt sich heraus ...
Dieses lineare 0/1-Regressionsmodell (standardisiert / skaliert auf einen einfach zu lesenden Score und gepaart mit einem geeigneten Cutoff) validierte sauber Datenproben und lieferte eine sehr gute Leistung als Gut / Schlecht-Diskriminator für Insolvenz.
Das Modell wurde jahrelang als zweiter Kredit-Score zur Absicherung gegen Insolvenz neben dem Risiko-Score von FICO verwendet (der darauf ausgelegt war, eine Kreditausfallrate von mehr als 60 Tagen vorherzusagen).
quelle