Ich versuche, eine Antwortvariable zu modellieren, die theoretisch zwischen -225 und +225 liegt. Die Variable ist die Gesamtpunktzahl, die die Probanden beim Spielen eines Spiels erhalten haben. Obwohl es theoretisch möglich ist, dass Probanden +225 Punkte erzielen. Trotzdem geschah dies mit einer sehr hohen Häufigkeit, da die Punktzahl nicht nur von den Aktionen des Subjekts abhing, sondern auch von den Aktionen anderer Aktionen. Das Maximum war 125 Punkte (dies sind die höchsten 2 Spieler, die gegeneinander spielen und beide Punkte erzielen können). Dies geschah mit einer sehr hohen Häufigkeit. Die niedrigste Punktzahl war +35.
Diese Grenze von 125 verursacht Schwierigkeiten mit einer linearen Regression. Das einzige, was ich mir vorstellen kann, ist die Neuskalierung der Antwort auf 0 bis 1 und die Verwendung einer Beta-Regression. Wenn ich dies tue, obwohl ich nicht sicher bin, ob ich wirklich rechtfertigen kann, dass 125 die oberste Grenze (oder 1 nach der Transformation) ist, da es möglich ist, +225 zu erzielen. Wenn ich das tun würde, was wäre dann meine untere Grenze, 35?
Vielen Dank,
Jonathan
quelle
Antworten:
Obwohl ich nicht ganz sicher bin, was Ihr Problem mit der linearen Regression ist, beende ich gerade einen Artikel über die Analyse begrenzter Ergebnisse. Da ich mit der Beta-Regression nicht vertraut bin, wird möglicherweise jemand anderes diese Option beantworten.
Unter Ihrer Frage verstehe ich, dass Sie Vorhersagen außerhalb der Grenzen erhalten. In diesem Fall würde ich mich für eine logistische Quantilregression entscheiden . Quantile Regression ist eine sehr gute Alternative zur regulären linearen Regression. Sie können verschiedene Quantile betrachten und ein viel besseres Bild Ihrer Daten erhalten, als dies mit einer regulären linearen Regression möglich ist. Es gibt auch keine Annahmen bezüglich der Verteilung 1 .
Die Transformation einer Variablen kann häufig lustige Auswirkungen auf die lineare Regression haben. Beispielsweise haben Sie eine Bedeutung für die logistische Transformation, die sich jedoch nicht in den regulären Wert umsetzt. Dies ist bei Quantilen nicht der Fall , der Median ist unabhängig von der Transformationsfunktion immer der Median. Auf diese Weise können Sie sich hin und her verwandeln, ohne etwas zu verzerren. Prof. Bottai schlug diesen Ansatz für begrenzte Ergebnisse 2 vor. Dies ist eine hervorragende Methode, wenn Sie individuelle Vorhersagen treffen möchten, aber es gibt einige Probleme, wenn Sie die Beta-Versionen nicht betrachten und nicht logistisch interpretieren möchten. Die Formel ist einfach:
Wobei Ihre Punktzahl ist und eine beliebige kleine Zahl ist.ϵy ϵ
Hier ist ein Beispiel, das ich vor einiger Zeit gemacht habe, als ich in R damit experimentieren wollte:
Dies ergibt die folgende Datenstreuung, wie Sie sehen können, ist sie klar begrenzt und unpraktisch :
Dies führt zu folgendem Bild, in dem sich die Weibchen deutlich über der oberen Grenze befinden:
Dies ergibt die folgende Darstellung mit ähnlichen Problemen:
Die logistische Quantilregression, die eine sehr schöne begrenzte Vorhersage hat:
Hier sehen Sie das Problem mit den Beta-Versionen, die sich in der retransformierten Weise in verschiedenen Regionen unterscheiden (wie erwartet):
Verweise
Für die Neugierigen wurden die Handlungen mit diesem Code erstellt:
quelle
Smithson, M. and Verkuilen, J. (2006). A better lemon squeezer? maximum-likelihood regression with beta-distributed dependent variables. Psychological Methods, 11(1):54-71.
, DOI , Online- PDF . Es hat eine ähnliche Motivation für die Modellierung von Verteilungen mit Boden- / Deckeneffekten.