Welche Art von Regression ist unter Berücksichtigung einer Variablen mit Obergrenze zu verwenden?

9

Ich bin mir nicht sicher, mit welcher Methode die Beziehung zwischen zwei Variablen ( und ) im folgenden Experiment modelliert werden soll:yxy

  • Es gibt 3 Variablen: , und . x yxeinichmxy
  • Der Wert von wird beim Ausführen des Experiments festgelegt. Allerdings und ist nicht immer gleich. x x a i mxeinichmxxeinichm
  • Der Pearson-Korrelationskoeffizient zwischen und beträgt ungefähr 0,9. xxeinichmx
  • Der Pearson-Korrelationskoeffizient zwischen und ist viel geringer: etwa 0,5.yxy
  • y hat einen maximal möglichen Wert ( ), der nicht überschritten werden kann.ymeinx
  • Jeder Datenpunkt wird erhalten, nachdem und und gelesen wurden . x yxeinichmxy

Obwohl der Pearson-Korrelationskoeffizient zwischen und nicht groß ist, scheint mit tendenziell zuzunehmen .y y xxyyx

Nachdem einfache lineare Regressionen von und (und letztere zurück in konvertiert wurden , um beispielsweise im selben Diagramm wie angezeigt zu werden ), werden beide Steigungen sind positiv, aber die Steigung von ist größer als die von .x = g ( y ) g - 1 f g - 1 fy=f(x)x=G(y)G- -1fG- -1f

Ist es sinnvoll, oder zu sagen ? ( würde im zweiten Fall früher erreicht werden.)x m a x = g ( y m a x )xmeinx=f- -1(ymeinx)xmeinx=G(ymeinx)xmeinx

Was kann man Tatsache, dass an gebunden ist, über den möglichen Maximalwert von sagen, der erreicht werden könnte?y my xymeinxx

Soweit ich weiß, ist es sinnvoll, eine lineare Regression der Form wenn die unabhängige Variable und die abhängige Variable ist. In diesem Zusammenhang bin ich mir jedoch nicht sicher, ob es sinnvoll ist, zu berücksichtigen, dass unabhängig und abhängig ist.x yy=f(x)xyyxy

Wäre eine Regression der kleinsten Quadrate insgesamt angemessener? Gibt es andere Methoden, um zu bestimmen, welche Werte von erreicht werden können (und mit welcher Wahrscheinlichkeit)?xmeinx

(Wenn dies wichtig ist, scheinen und keiner Normalverteilung zu folgen, da mehr Versuche unternommen wurden, höhere Werte von zu erreichen .)y xxyx

Bruno
quelle
Was wirst du mit dieser Beziehung machen, wenn du sie findest? Wirst du die Hypothesen testen oder bist du nur daran interessiert, wie sie aussehen? Wenn viele Datenpunkte vorhanden sind, sollten Sie nichtlineare Modelle berücksichtigen.
mpiktas
@mpiktas Letztendlich möchte ich wissen, welches x_max ein vernünftiges Ziel ist, das ich regelmäßig (nicht nur einmal) erreichen könnte, wenn man bedenkt, dass das Erreichen oder Überschreiten von y_max das Experiment ungültig macht (was effektiv bedeutet, dass x = x_min ist) für diesen Versuch).
Bruno
Die gesamte Regression der kleinsten Quadrate (oder Fehler in Variablen) wird angezeigt, wenn die Varianz von im Vergleich zu der von y beträchtlich wird . Die 90% -Korrelation mit dem x- Ziel legt nahe, dass die Varianz von x so gering sein kann, dass Sie sie sicher als unabhängige Variable behandeln können. Dies können Sie nach der Regression überprüfen, indem Sie den RMSE der Residuen von x Ziel gegen x mit den RMSE der Residuen von y gegen x Ziel vergleichen . Ob y max ein Problem ist, hängt davon ab; wenn Sie einen oberen Grenzwert im Streudiagramm mit x- Ziel sehenxyxZielxxZielxyxZielymaxxZielEs ist eine wichtige Überlegung.
whuber

Antworten:

4

Ich möchte @ Kings Punkte unterstützen. Es ist sehr intuitiv zu vermuten, dass die Regression von auf x ('direkte Regression') und die Regression von x auf y ('umgekehrte Regression') gleich sein sollte. Dies gilt jedoch weder mathematisch noch in Bezug darauf, wie die Regression mit der von Ihnen analysierten Situation zusammenhängt. Wenn Sie y auf der vertikalen Achse eines Diagramms und x auf der horizontalen Achse zeichnen , können Sie sehen, was passiert. Die direkte Regression findet die Linie, die die vertikalen Abstände zwischen den Datenpunkten und der Linie minimiert, während die umgekehrte Regression die horizontalen Abstände minimiert. Die Linie, die die eine minimiert, minimiert die andere nur, wennyxxyyx . Sie müssen entscheiden, was Sie erklären möchten und was Sie verwenden möchten, um es zu erklären. Die Antwort auf diese Frage gibt Ihnen, welche Variable y und x ist, und gibt Ihr Modell an. Auch (wieder nach @King) bin ichaus den gleichen Gründen nicht damiteinverstanden, x m a x = f - 1 ( y m a x ) zu sagen. rxy=1.0yxxmeinx=f- -1(ymeinx)

In Bezug auf das Problem einer begrenzten Variablen ist es normalerweise denkbar, dass der „reale“ Betrag höher sein könnte, aber dass Sie ihn einfach nicht messen können. Zum Beispiel geht ein Außenthermometer aus meinem Fenster auf 120, aber es könnte an einigen Stellen 140 draußen sein, und Sie würden nur 120 als Maß haben. Somit hätte die Variable eine Obergrenze, aber das, worüber Sie wirklich nachdenken wollten, tut dies nicht. In diesem Fall existieren für solche Situationen tobit- Modelle.

Ein anderer Ansatz wäre, etwas Robusteres wie Löss zu verwenden, das für Ihre Bedürfnisse vollkommen ausreichend sein könnte.

gung - Monica wieder einsetzen
quelle
Entschuldigung für die Verzögerung, ich hatte Ihre Antwort nicht bemerkt. Ich muss mich über das Tobit-Modell informieren.
Bruno
Kein Problem. Weitere Informationen zur Art der Regression (im Vergleich zur umgekehrten Regression) finden Sie hier . Wenn Sie Hilfe beim Anwenden der Tobit-Regression mit verschiedenen Softwareprogrammen benötigen, versuchen Sie es hier .
Gung - Reinstate Monica
3

Erstens halte ich es nicht für sinnvoll, hier zu sagen. Das bedeutet, dass es sich um eine Eins-zu-Eins-Funktion handelt, obwohl x m a x von anderen unbeobachtet erklärt wird Variablen.xmeinx=f- -1(ymeinx)xmeinx

Zweitens hängt es wirklich vom Kontext ab, für den eine unabhängige oder abhängige Variable behandelt werden soll. Aus meiner Erfahrung, es sei denn, die Theorie schlägt stark einen Weg vor; so oder so ist ok. Aus Ihren Kommentaren vom 7. Oktober geht hervor, dass abhängig ist, während y unabhängig ist.xy

Wenn möglich, schauen Sie sich die Residuen an und sehen Sie, ob Sie etwas herausdrücken können. Es könnte eine andere Variable geben, die Sie vergessen haben. oder es kann hilfreich sein, Ihre Variablen zu transformieren.

König
quelle