Welche Art von Regression ist unter Berücksichtigung einer Variablen mit Obergrenze zu verwenden?

9

Ich bin mir nicht sicher, mit welcher Methode die Beziehung zwischen zwei Variablen ( und ) im folgenden Experiment modelliert werden soll: $x$ $y$

Es gibt 3 Variablen: , und . $x_{aim}$ $x$ $y$
Der Wert von wird beim Ausführen des Experiments festgelegt. Allerdings und ist nicht immer gleich. $x_{aim}$ $x$ $x_{aim}$
Der Pearson-Korrelationskoeffizient zwischen und beträgt ungefähr 0,9. $x_{aim}$ $x$
Der Pearson-Korrelationskoeffizient zwischen und ist viel geringer: etwa 0,5. $x$ $y$
$y$ hat einen maximal möglichen Wert ( ), der nicht überschritten werden kann. $y_{max}$
Jeder Datenpunkt wird erhalten, nachdem und und gelesen wurden . $x_{aim}$ $x$ $y$

Obwohl der Pearson-Korrelationskoeffizient zwischen und nicht groß ist, scheint mit tendenziell zuzunehmen . $x$ $y$ $y$ $x$

Nachdem einfache lineare Regressionen von und (und letztere zurück in konvertiert wurden , um beispielsweise im selben Diagramm wie angezeigt zu werden ), werden beide Steigungen sind positiv, aber die Steigung von ist größer als die von . $y=f(x)$ $x=g(y)$ $g^{-1}$ $f$ $g^{-1}$ $f$

Ist es sinnvoll, oder zu sagen ? ( würde im zweiten Fall früher erreicht werden.) $x_{max} = f^{-1}(y_{max})$ $x_{max} = g(y_{max})$ $x_{max}$

Was kann man Tatsache, dass an gebunden ist, über den möglichen Maximalwert von sagen, der erreicht werden könnte? $y$ $y_{max}$ $x$

Soweit ich weiß, ist es sinnvoll, eine lineare Regression der Form wenn die unabhängige Variable und die abhängige Variable ist. In diesem Zusammenhang bin ich mir jedoch nicht sicher, ob es sinnvoll ist, zu berücksichtigen, dass unabhängig und abhängig ist. $y=f(x)$ $x$ $y$ $x$ $y$

Wäre eine Regression der kleinsten Quadrate insgesamt angemessener? Gibt es andere Methoden, um zu bestimmen, welche Werte von erreicht werden können (und mit welcher Wahrscheinlichkeit)? $x_{max}$

(Wenn dies wichtig ist, scheinen und keiner Normalverteilung zu folgen, da mehr Versuche unternommen wurden, höhere Werte von zu erreichen .) $x$ $y$ $x$

regression correlation Bruno
quelle

Was wirst du mit dieser Beziehung machen, wenn du sie findest? Wirst du die Hypothesen testen oder bist du nur daran interessiert, wie sie aussehen? Wenn viele Datenpunkte vorhanden sind, sollten Sie nichtlineare Modelle berücksichtigen.

mpiktas

@mpiktas Letztendlich möchte ich wissen, welches x_max ein vernünftiges Ziel ist, das ich regelmäßig (nicht nur einmal) erreichen könnte, wenn man bedenkt, dass das Erreichen oder Überschreiten von y_max das Experiment ungültig macht (was effektiv bedeutet, dass x = x_min ist) für diesen Versuch).

Bruno

Die gesamte Regression der kleinsten Quadrate (oder Fehler in Variablen) wird angezeigt, wenn die Varianz von

im Vergleich zu der von

beträchtlich wird . Die 90% -Korrelation mit dem

legt nahe, dass die Varianz von

so gering sein kann, dass Sie sie sicher als unabhängige Variable behandeln können. Dies können Sie nach der Regression überprüfen, indem Sie den RMSE der Residuen von

gegen

mit den RMSE der Residuen von

gegen

. Ob

ein Problem ist, hängt davon ab; wenn Sie einen oberen Grenzwert im Streudiagramm mit

x

$x$

y

$y$

x_{aim}

$x_\text{aim}$

x

$x$

x_{aim}

$x_\text{aim}$

x

$x$

y

$y$

x_{aim}

$x_\text{aim}$

y_{max}

$y_\text{max}$

x_{aim}

$x_\text{aim}$ Es ist eine wichtige Überlegung.

whuber

4

Ich möchte @ Kings Punkte unterstützen. Es ist sehr intuitiv zu vermuten, dass die Regression von auf ('direkte Regression') und die Regression von auf ('umgekehrte Regression') gleich sein sollte. Dies gilt jedoch weder mathematisch noch in Bezug darauf, wie die Regression mit der von Ihnen analysierten Situation zusammenhängt. Wenn Sie auf der vertikalen Achse eines Diagramms und auf der horizontalen Achse zeichnen , können Sie sehen, was passiert. Die direkte Regression findet die Linie, die die vertikalen Abstände zwischen den Datenpunkten und der Linie minimiert, während die umgekehrte Regression die horizontalen Abstände minimiert. Die Linie, die die eine minimiert, minimiert die andere nur, wenn $y$ $x$ $x$ $y$ $y$ $x$ . Sie müssen entscheiden, was Sie erklären möchten und was Sie verwenden möchten, um es zu erklären. Die Antwort auf diese Frage gibt Ihnen, welche Variable und und gibt Ihr Modell an. Auch (wieder nach @King) bin ichaus den gleichen Gründen nicht damiteinverstanden, zu sagen. $r_{xy}=1.0$ $y$ $x$ $x_{max}=f^{-1}(y_{max})$

In Bezug auf das Problem einer begrenzten Variablen ist es normalerweise denkbar, dass der „reale“ Betrag höher sein könnte, aber dass Sie ihn einfach nicht messen können. Zum Beispiel geht ein Außenthermometer aus meinem Fenster auf 120, aber es könnte an einigen Stellen 140 draußen sein, und Sie würden nur 120 als Maß haben. Somit hätte die Variable eine Obergrenze, aber das, worüber Sie wirklich nachdenken wollten, tut dies nicht. In diesem Fall existieren für solche Situationen tobit- Modelle.

Ein anderer Ansatz wäre, etwas Robusteres wie Löss zu verwenden, das für Ihre Bedürfnisse vollkommen ausreichend sein könnte.

gung - Monica wieder einsetzen
quelle

Entschuldigung für die Verzögerung, ich hatte Ihre Antwort nicht bemerkt. Ich muss mich über das Tobit-Modell informieren.

Bruno

Kein Problem. Weitere Informationen zur Art der Regression (im Vergleich zur umgekehrten Regression) finden Sie hier . Wenn Sie Hilfe beim Anwenden der Tobit-Regression mit verschiedenen Softwareprogrammen benötigen, versuchen Sie es hier .

Gung - Reinstate Monica

3

Erstens halte ich es nicht für sinnvoll, hier zu sagen. Das bedeutet, dass es sich um eine Eins-zu-Eins-Funktion handelt, obwohl von anderen unbeobachtet erklärt wird Variablen. $x_{max}=f^{-1}(y_{max})$ $x_{max}$

Zweitens hängt es wirklich vom Kontext ab, für den eine unabhängige oder abhängige Variable behandelt werden soll. Aus meiner Erfahrung, es sei denn, die Theorie schlägt stark einen Weg vor; so oder so ist ok. Aus Ihren Kommentaren vom 7. Oktober geht hervor, dass abhängig ist, während unabhängig ist. $x$ $y$

Wenn möglich, schauen Sie sich die Residuen an und sehen Sie, ob Sie etwas herausdrücken können. Es könnte eine andere Variable geben, die Sie vergessen haben. oder es kann hilfreich sein, Ihre Variablen zu transformieren.

König
quelle

Welche Art von Regression ist unter Berücksichtigung einer Variablen mit Obergrenze zu verwenden?

Antworten: