Wenn eine Antwort oder ein Ergebnis begrenzt ist, stellen sich bei der Anpassung eines Modells verschiedene Fragen, darunter die folgenden: Y
Jedes Modell, das Werte für die Antwort außerhalb dieser Grenzen vorhersagen könnte, ist im Prinzip zweifelhaft. Daher könnte ein lineares Modell problematisch sein, da es für die Prädiktoren und die Koeffizienten keine Grenzen für wenn die selbst in eine oder beide Richtungen unbegrenzt sind. Die Beziehung könnte jedoch schwach genug sein, um nicht zu beißen, und / oder Vorhersagen könnten innerhalb der Grenzen über den beobachteten oder plausiblen Bereich der Prädiktoren bleiben. In einem Extremfall spielt es kaum eine Rolle, zu welchem Modell man passt , wenn die Reaktion ein Mittelwert Rauschen ist.Y^=XbXbX+
Da die Antwort ihre Grenzen nicht überschreiten kann, ist eine nichtlineare Beziehung oft plausibler, da vorhergesagte Antworten nachlassen, um sich asymptotisch den Grenzen zu nähern. Sigmoidkurven oder -flächen, wie sie von Logit- oder Probit-Modellen vorhergesagt werden, sind in dieser Hinsicht attraktiv und sind jetzt nicht schwer anzupassen. Eine Antwort wie Alphabetisierung (oder Bruchteil, die eine neue Idee annimmt) zeigt häufig eine solche Sigmoidkurve zeitlich und plausibel mit fast jedem anderen Prädiktor.
Eine begrenzte Antwort kann nicht die Varianz-Eigenschaften haben, die bei einer einfachen oder Vanille-Regression erwartet werden. Wenn sich die mittlere Antwort der unteren und oberen Grenze nähert, nähert sich die Varianz notwendigerweise immer Null.
Ein Modell sollte entsprechend der Funktionsweise und dem Wissen über den zugrunde liegenden Erzeugungsprozess ausgewählt werden. Ob der Kunde oder das Publikum über bestimmte Modellfamilien Bescheid weiß, kann auch die Praxis leiten.
Beachten Sie, dass ich pauschale Urteile wie gut / nicht gut, angemessen / nicht angemessen, richtig / falsch absichtlich vermeide. Alle Modelle sind bestenfalls Näherungswerte, und welche Näherungswerte ansprechen oder für ein Projekt gut genug sind, ist nicht so einfach vorherzusagen. Normalerweise bevorzuge ich Logit-Modelle als erste Wahl für begrenzte Antworten, aber selbst diese Präferenz basiert teilweise auf Gewohnheit (z. B. das Vermeiden von Probit-Modellen ohne sehr guten Grund) und teilweise darauf, wo ich Ergebnisse melden werde, normalerweise an Leserschaften, die oder sollte statistisch gut informiert sein.
Ihre Beispiele für diskrete Skalen beziehen sich auf die Punkte 1-100 (bei Aufgaben, die ich markiere, ist 0 sicherlich möglich!) Oder auf die Ranglisten 1-17. Bei solchen Skalen würde ich normalerweise daran denken, kontinuierliche Modelle an Antworten anzupassen, die auf [0, 1] skaliert sind. Es gibt jedoch Praktiker von ordinalen Regressionsmodellen, die solche Modelle gerne an Skalen mit einer relativ großen Anzahl diskreter Werte anpassen würden. Ich bin froh, wenn sie antworten, wenn sie so interessiert sind.
Sehen Sie sich die vorhergesagten Werte an und prüfen Sie, ob sie ungefähr die gleiche Verteilung wie die ursprünglichen Ys haben. Wenn dies der Fall ist, ist eine lineare Regression wahrscheinlich in Ordnung. und Sie werden wenig gewinnen, wenn Sie Ihr Modell verbessern.
quelle
Eine lineare Regression kann solche Daten "angemessen" beschreiben, ist jedoch unwahrscheinlich. Viele Annahmen der linearen Regression werden bei dieser Art von Daten in einem solchen Ausmaß verletzt, dass die lineare Regression schlecht beraten wird. Ich werde nur einige Annahmen als Beispiele wählen,
Die Verstöße gegen diese Annahmen werden gemindert, wenn die Daten dazu neigen, um die Mitte des Bereichs von den Rändern weg zu fallen. Die lineare Regression ist jedoch nicht das optimale Werkzeug für diese Art von Daten. Viel bessere Alternativen könnten die binomiale Regression oder die Poisson-Regression sein.
quelle
Wenn die Antwort nur wenige Kategorien umfasst, können Sie möglicherweise Klassifizierungsmethoden oder ordinale Regression verwenden, wenn Ihre Antwortvariable ordinal ist.
Eine einfache lineare Regression gibt Ihnen weder diskrete Kategorien noch begrenzte Antwortvariablen. Letzteres kann mithilfe eines Logit-Modells wie bei der logistischen Regression behoben werden. Für so etwas wie ein Testergebnis mit 100 Kategorien 1-100 können Sie auch Ihre Vorhersage vereinfachen und eine begrenzte Antwortvariable verwenden.
quelle
Verwenden Sie ein cdf (kumulative Verteilungsfunktion aus Statistiken). Wenn Ihr Modell y = xb + e ist, ändern Sie es in y = cdf (xb + e). Sie müssen Ihre abhängigen Variablendaten neu skalieren, um zwischen 0 und 1 zu liegen. Wenn es sich um positive Zahlen handelt, dividieren Sie diese durch max. Nehmen Sie Ihre Modellvorhersagen und multiplizieren Sie sie mit derselben Zahl. Überprüfen Sie dann die Passform und prüfen Sie, ob die begrenzten Vorhersagen die Situation verbessern.
Sie möchten wahrscheinlich einen vordefinierten Algorithmus verwenden, um die Statistiken für Sie zu verwalten.
quelle