Warum lineare Regression studieren?

13

Mit zwei Zufallsvariablen ξ und η können wir ihren "Korrelationskoeffizienten" berechnen cund die Linie der besten Anpassung zwischen diesen beiden Zufallsvariablen bilden. Meine Frage ist warum?

1) Es gibt Zufallsvariablen, ξ und η die in schlechtester Weise abhängig sind, dh und trotzdem . Wenn man nur an lineare Regression denkt, ist man völlig blind dafür.c = 0ξ=f(η)c=0

2) Warum speziell linear? Es gibt andere Arten von Beziehungen, die zwischen Zufallsvariablen bestehen können. Warum dieses aus allen anderen herausheben?

Nicolas Bourbaki
quelle
18
Dies ist ein bisschen wie die Frage, warum Sie einen Schraubenzieher besitzen, wenn Sie manchmal auf Nägel stoßen.
Sycorax sagt Reinstate Monica
6
Sie scheinen auch davon auszugehen, dass es Leute gibt, die sich nur mit linearer Regression beschäftigen: "Wenn man nur an lineare Regression denkt", "Warum sollte man diese von allen anderen unterscheiden ". Das kommt mir wie ein Strohmann vor, natürlich ist es lächerlich, an einem einzigen Werkzeug oder einer Perspektive festzuhalten.
Matthew Drury
7
Bei linear "spezifisch" geht es eigentlich eher um lineare Kombinationen von Basisfunktionen , die eigentlich recht allgemein sind.
GeoMatt22
2
@MatthewDrury Es gibt keinen Strohmann und ich nehme nichts an. Ich stelle lediglich eine Frage, indem ich einen pathologischen Extremfall des Denkens benutze, um einen Schwachpunkt in der Methode zu veranschaulichen. Warum nimmst du an, dass ich das annehme? Regression ist ein sehr großes Thema für Statistiker. Ich verstehe nicht, was daran so besonders ist, dass es so viel studiert wird.
Nicolas Bourbaki
8
Für diejenigen, die sich mit dieser Frage auseinandersetzen: Ich glaube, Sie haben es vergessen, als Sie das erste Mal von linearer Regression erfahren haben und "eine der Annahmen ist die eines linearen Effekts". Sie dachten sich: "Aber ein Effekt ist niemals linear!" Sehr wahrscheinlich haben Sie sich nach langem Nachdenken davon überzeugt, dass die lineare Regression trotz alledem ein grundlegendes Instrument war, das sowohl verstanden als auch genutzt werden sollte. Setzen Sie sich jetzt einfach zurück, bevor Sie das Nachdenken abgeschlossen haben. Ich denke, es ist eine großartige Frage, dass jeder Statistik-Student viel Zeit damit verbringen sollte, sich Gedanken zu machen.
Cliff AB

Antworten:

9

Ich stimme zu, dass nicht alle Beziehungen linear sind, aber viele Beziehungen können linear angenähert werden. Wir haben viele solcher Fälle in der Mathematik gesehen, wie die Taylor-Reihe oder die Fourier-Reihe usw. Der entscheidende Punkt hier ist, wie im Kommentar gesagt, dass Sie im Allgemeinen die nichtlinearen Daten transformieren und eine Art Transformation mit Basisfunktionen anwenden und die linearisieren können Beziehung. Der Grund, warum Universitäten nur "multiple lineare Regressionsmodelle" (einschließlich einfacher Regressionsmodelle) ansprechen, liegt darin, dass sie den Baustein für Modelle eines fortgeschritteneren Niveaus darstellen, die auch linear sind.

Mathematisch gesehen können Sie, solange Sie nachweisen können, dass eine bestimmte lineare Approximation in einem Hilbert-Raum dicht ist, die Approximation verwenden, um eine Funktion im Raum darzustellen.

Daeyoung Lim
quelle
2
Genau. Niemand sonst hat es erwähnt, aber wie diese Antwort sagt, können Sie Ihre Variablen im Allgemeinen immer transformieren, um die Beziehung zu linearisieren. Darüber hinaus gilt: a) Es ist einfach, globale Maxima für lineare Regressionen zu finden, und b) viele andere Modelle, einschließlich neuronaler Netze, sind einfacher zu verstehen, wenn Sie logistische Regressionen kennen, die auf linearen Regressionen basieren.
Ricardo Cruz
7

Das Modell, auf das Sie sich beziehen, die einfache lineare Regression, auch bekannt als "Best-Fit-Linie" (ich verwechsle hier Modell und Schätzmethode), ist zugegebenermaßen sehr einfach (wie der Name schon sagt). Warum es studieren? Ich kann viele Gründe sehen. Im Folgenden gehe ich davon aus, dass der Begriff der Zufallsvariablen zumindest informell eingeführt wurde, weil Sie ihn in Ihrer Frage erwähnt haben.

  1. pädagogisch: Natürlich ist es für Sie offensichtlich, dass reelle Zufallsvariablen mit endlichen Momenten zweiter Ordnung einen Hilbert-Raum bilden. Vielleicht war es schon bei Ihrem ersten Studium der Wahrscheinlichkeitstheorie offensichtlich. Aber Statistik wird nicht nur Mathematikstudenten beigebracht: Es gibt ein breiteres Publikum, von Physik über Wirtschaft, Informatik bis hin zu Sozialwissenschaften usw. Diese Studenten können zu Beginn ihres Studiums auf Statistiken stoßen. Sie können der linearen Algebra ausgesetzt gewesen sein oder auch nicht, und selbst im ersten Fall haben sie sie unter dem abstrakteren Gesichtspunkt eines Mathematikkurses möglicherweise nicht gesehen. Für diese Studenten ist das Konzept, eine Zufallsvariable durch eine andere Zufallsvariable zu approximieren, nicht so unmittelbar. Selbst die grundlegende Eigenschaft des einfachen linearen Modells, dh die Tatsache, dass der Fehler und der Prädiktor orthogonale Zufallsvariablen sind, ist manchmal überraschend für sie. Die Tatsache, dass Sie einen "Winkel" zwischen Zufallsvariablen definieren können ("böse" Objekte! Messbare Funktionen von einem Wahrscheinlichkeitsraum zu einem messbaren Raum), mag für Sie offensichtlich sein, aber nicht unbedingt für einen Neuling. Wenn also die Untersuchung von Vektorräumen mit der guten alten euklidischen Ebene beginnt, ist es dann nicht sinnvoll, die Untersuchung statistischer Modelle mit der einfachsten zu beginnen?
  2. ξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ϵ
  3. Praktisch : Es gibt zahlreiche erfolgreiche Anwendungen der einfachen linearen Regression. Okuns Gesetz in der Wirtschaft, das Hookesche Gesetz , das Ohmsche Gesetz und das Charlessche Gesetz in der Physik, die Beziehung zwischen blutsystolischem Druck und Alter in der Medizin (ich habe keine Ahnung, ob es einen Namen hat!) Sind Beispiele für eine einfache lineare Regression mit unterschiedlichem Ausmaß Richtigkeit.
DeltaIV
quelle
4

Ein weiterer Grund ist die schöne Art und Weise, wie Regression eine einheitliche Behandlung von Techniken wie ANOVA ermöglicht. Die übliche "elementare" Behandlung von ANOVA scheint mir ziemlich undurchsichtig, aber eine auf Regression basierende Behandlung ist kristallklar. Ich vermute, dass dies viel damit zu tun hat, wie Regressionsmodelle einige Annahmen explizit machen, die in "elementaren" Behandlungen stillschweigend und ungeprüft sind. Darüber hinaus ist die konzeptionelle Klarheit, die eine solche einheitliche Perspektive bietet, mit ähnlichen praktischen Vorteilen verbunden, wenn es darum geht, Methoden in Statistiksoftware zu implementieren.

Dieses Prinzip gilt nicht nur für ANOVA, sondern auch für Erweiterungen wie eingeschränkte kubische Splines, die sich insbesondere mit Ihrer zweiten Frage befassen.

David C. Norris
quelle
3

Die Popularität der linearen Regression beruht zum Teil auf ihrer Interpretierbarkeit - das heißt, Nicht-Techniker können die Parameterkoeffizienten mit ein wenig Erklärung verstehen. Dies bietet einen großen Mehrwert in Geschäftssituationen, in denen Endbenutzer der Ergebnisse oder Vorhersagen möglicherweise kein tiefes Verständnis für Mathematik / Statistik haben.

Ja, es gibt Annahmen und Einschränkungen bei dieser Technik (wie bei allen Ansätzen), und sie bietet in vielen Fällen möglicherweise nicht die beste Anpassung. Die lineare Regression ist jedoch sehr robust und kann häufig auch dann eine gute Leistung erbringen, wenn Annahmen verletzt werden.

Aus diesen Gründen lohnt es sich auf jeden Fall zu studieren.

B.Frost
quelle
-2

Etwas könnte nicht direkt verwandt sein.

Wenn Sie zwei Serien haben x und y Das cÖv(x,y)=0, und wenn Sie vermuten, gibt es eine Beziehung zwischen x und y. Sie könnten einen Plot zwischen macheny und x ihre Beziehung zu untersuchen.

Zhu Jinxuan
quelle