Mit zwei Zufallsvariablen und können wir ihren "Korrelationskoeffizienten" berechnen und die Linie der besten Anpassung zwischen diesen beiden Zufallsvariablen bilden. Meine Frage ist warum?
1) Es gibt Zufallsvariablen, und die in schlechtester Weise abhängig sind, dh und trotzdem . Wenn man nur an lineare Regression denkt, ist man völlig blind dafür.c = 0
2) Warum speziell linear? Es gibt andere Arten von Beziehungen, die zwischen Zufallsvariablen bestehen können. Warum dieses aus allen anderen herausheben?
regression
Nicolas Bourbaki
quelle
quelle
Antworten:
Ich stimme zu, dass nicht alle Beziehungen linear sind, aber viele Beziehungen können linear angenähert werden. Wir haben viele solcher Fälle in der Mathematik gesehen, wie die Taylor-Reihe oder die Fourier-Reihe usw. Der entscheidende Punkt hier ist, wie im Kommentar gesagt, dass Sie im Allgemeinen die nichtlinearen Daten transformieren und eine Art Transformation mit Basisfunktionen anwenden und die linearisieren können Beziehung. Der Grund, warum Universitäten nur "multiple lineare Regressionsmodelle" (einschließlich einfacher Regressionsmodelle) ansprechen, liegt darin, dass sie den Baustein für Modelle eines fortgeschritteneren Niveaus darstellen, die auch linear sind.
Mathematisch gesehen können Sie, solange Sie nachweisen können, dass eine bestimmte lineare Approximation in einem Hilbert-Raum dicht ist, die Approximation verwenden, um eine Funktion im Raum darzustellen.
quelle
Das Modell, auf das Sie sich beziehen, die einfache lineare Regression, auch bekannt als "Best-Fit-Linie" (ich verwechsle hier Modell und Schätzmethode), ist zugegebenermaßen sehr einfach (wie der Name schon sagt). Warum es studieren? Ich kann viele Gründe sehen. Im Folgenden gehe ich davon aus, dass der Begriff der Zufallsvariablen zumindest informell eingeführt wurde, weil Sie ihn in Ihrer Frage erwähnt haben.
quelle
Ein weiterer Grund ist die schöne Art und Weise, wie Regression eine einheitliche Behandlung von Techniken wie ANOVA ermöglicht. Die übliche "elementare" Behandlung von ANOVA scheint mir ziemlich undurchsichtig, aber eine auf Regression basierende Behandlung ist kristallklar. Ich vermute, dass dies viel damit zu tun hat, wie Regressionsmodelle einige Annahmen explizit machen, die in "elementaren" Behandlungen stillschweigend und ungeprüft sind. Darüber hinaus ist die konzeptionelle Klarheit, die eine solche einheitliche Perspektive bietet, mit ähnlichen praktischen Vorteilen verbunden, wenn es darum geht, Methoden in Statistiksoftware zu implementieren.
Dieses Prinzip gilt nicht nur für ANOVA, sondern auch für Erweiterungen wie eingeschränkte kubische Splines, die sich insbesondere mit Ihrer zweiten Frage befassen.
quelle
Die Popularität der linearen Regression beruht zum Teil auf ihrer Interpretierbarkeit - das heißt, Nicht-Techniker können die Parameterkoeffizienten mit ein wenig Erklärung verstehen. Dies bietet einen großen Mehrwert in Geschäftssituationen, in denen Endbenutzer der Ergebnisse oder Vorhersagen möglicherweise kein tiefes Verständnis für Mathematik / Statistik haben.
Ja, es gibt Annahmen und Einschränkungen bei dieser Technik (wie bei allen Ansätzen), und sie bietet in vielen Fällen möglicherweise nicht die beste Anpassung. Die lineare Regression ist jedoch sehr robust und kann häufig auch dann eine gute Leistung erbringen, wenn Annahmen verletzt werden.
Aus diesen Gründen lohnt es sich auf jeden Fall zu studieren.
quelle
Etwas könnte nicht direkt verwandt sein.
Wenn Sie zwei Serien habenx und y Das c o v ( x , y) = 0 , und wenn Sie vermuten, gibt es eine Beziehung zwischen x und y . Sie könnten einen Plot zwischen macheny und x ihre Beziehung zu untersuchen.
quelle