Ich bin mir nicht sicher, mit welcher Methode die Beziehung zwischen zwei Variablen ( und ) im folgenden Experiment modelliert werden soll:y
- Es gibt 3 Variablen: , und . x y
- Der Wert von wird beim Ausführen des Experiments festgelegt. Allerdings und ist nicht immer gleich. x x a i m
- Der Pearson-Korrelationskoeffizient zwischen und beträgt ungefähr 0,9. x
- Der Pearson-Korrelationskoeffizient zwischen und ist viel geringer: etwa 0,5.y
- hat einen maximal möglichen Wert ( ), der nicht überschritten werden kann.
- Jeder Datenpunkt wird erhalten, nachdem und und gelesen wurden . x y
Obwohl der Pearson-Korrelationskoeffizient zwischen und nicht groß ist, scheint mit tendenziell zuzunehmen .y y x
Nachdem einfache lineare Regressionen von und (und letztere zurück in konvertiert wurden , um beispielsweise im selben Diagramm wie angezeigt zu werden ), werden beide Steigungen sind positiv, aber die Steigung von ist größer als die von .x = g ( y ) g - 1 f g - 1 f
Ist es sinnvoll, oder zu sagen ? ( würde im zweiten Fall früher erreicht werden.)x m a x = g ( y m a x )
Was kann man Tatsache, dass an gebunden ist, über den möglichen Maximalwert von sagen, der erreicht werden könnte?y m x
Soweit ich weiß, ist es sinnvoll, eine lineare Regression der Form wenn die unabhängige Variable und die abhängige Variable ist. In diesem Zusammenhang bin ich mir jedoch nicht sicher, ob es sinnvoll ist, zu berücksichtigen, dass unabhängig und abhängig ist.x yy
Wäre eine Regression der kleinsten Quadrate insgesamt angemessener? Gibt es andere Methoden, um zu bestimmen, welche Werte von erreicht werden können (und mit welcher Wahrscheinlichkeit)?
(Wenn dies wichtig ist, scheinen und keiner Normalverteilung zu folgen, da mehr Versuche unternommen wurden, höhere Werte von zu erreichen .)y x
quelle
Antworten:
Ich möchte @ Kings Punkte unterstützen. Es ist sehr intuitiv zu vermuten, dass die Regression von auf x ('direkte Regression') und die Regression von x auf y ('umgekehrte Regression') gleich sein sollte. Dies gilt jedoch weder mathematisch noch in Bezug darauf, wie die Regression mit der von Ihnen analysierten Situation zusammenhängt. Wenn Sie y auf der vertikalen Achse eines Diagramms und x auf der horizontalen Achse zeichnen , können Sie sehen, was passiert. Die direkte Regression findet die Linie, die die vertikalen Abstände zwischen den Datenpunkten und der Linie minimiert, während die umgekehrte Regression die horizontalen Abstände minimiert. Die Linie, die die eine minimiert, minimiert die andere nur, wenny x x y y x . Sie müssen entscheiden, was Sie erklären möchten und was Sie verwenden möchten, um es zu erklären. Die Antwort auf diese Frage gibt Ihnen, welche Variable y und x ist, und gibt Ihr Modell an. Auch (wieder nach @King) bin ichaus den gleichen Gründen nicht damiteinverstanden, x m a x = f - 1 ( y m a x ) zu sagen. rx y= 1,0 y x xm a x= f- 1( ym a x)
In Bezug auf das Problem einer begrenzten Variablen ist es normalerweise denkbar, dass der „reale“ Betrag höher sein könnte, aber dass Sie ihn einfach nicht messen können. Zum Beispiel geht ein Außenthermometer aus meinem Fenster auf 120, aber es könnte an einigen Stellen 140 draußen sein, und Sie würden nur 120 als Maß haben. Somit hätte die Variable eine Obergrenze, aber das, worüber Sie wirklich nachdenken wollten, tut dies nicht. In diesem Fall existieren für solche Situationen tobit- Modelle.
Ein anderer Ansatz wäre, etwas Robusteres wie Löss zu verwenden, das für Ihre Bedürfnisse vollkommen ausreichend sein könnte.
quelle
Erstens halte ich es nicht für sinnvoll, hier zu sagen. Das bedeutet, dass es sich um eine Eins-zu-Eins-Funktion handelt, obwohl x m a x von anderen unbeobachtet erklärt wird Variablen.xm a x= f- 1( ym a x) xm a x
Zweitens hängt es wirklich vom Kontext ab, für den eine unabhängige oder abhängige Variable behandelt werden soll. Aus meiner Erfahrung, es sei denn, die Theorie schlägt stark einen Weg vor; so oder so ist ok. Aus Ihren Kommentaren vom 7. Oktober geht hervor, dass abhängig ist, während y unabhängig ist.x y
Wenn möglich, schauen Sie sich die Residuen an und sehen Sie, ob Sie etwas herausdrücken können. Es könnte eine andere Variable geben, die Sie vergessen haben. oder es kann hilfreich sein, Ihre Variablen zu transformieren.
quelle