Ich lerne die lineare Regression mithilfe der Einführung in die lineare Regressionsanalyse von Montgomery, Peck und Vining . Ich möchte ein Datenanalyseprojekt auswählen.
Ich habe den naiven Gedanken, dass eine lineare Regression nur dann geeignet ist, wenn man vermutet, dass es lineare funktionale Beziehungen zwischen erklärenden Variablen und der Antwortvariablen gibt. Aber nicht viele reale Anwendungen scheinen dieses Kriterium zu erfüllen. Dabei ist die lineare Regression so weit verbreitet.
Über welche Facetten eines Projekts würde sich ein erfahrener Statistiker Gedanken machen, wenn er in meinen Schuhen steckt und nach einer Frage + Daten sucht, die sich gut für eine lineare Regression eignen.
Antworten:
Dies ist kein korrektes Verständnis dessen, was "linear" in "linearer Regression" ist.
Es wird nicht angenommen, dass die Beziehung zwischen und x linear ist (obwohl alle elementaren Beispiele Sie wahrscheinlich irreführen werden).y x
Der Begriff "linear" bezieht sich darauf, dass das Modell in den Parametern linear ist, und nichtlineare Beziehungen zwischen und einigen x können auf diese Weise sicherlich modelliert werden.y x
Es ist ein Beispiel mit einem einzigen Prädiktor hier , aber gekrümmten Modelle sind häufiger als multiple Regression eingebaut, wo mehrere Funktionen eines Prädiktor (x Variable, unabhängige Variable) in der Regression auftreten können, und dies ermöglicht eine große Flexibilität. Dazu gehört beispielsweise die polynomiale Regression. Siehe einige Diskussionen und Beispiele hier .
Wenn wir jedoch die Tatsache berücksichtigen, dass Prädiktoren transformiert werden können, um sie an gekrümmte Beziehungen anzupassen, entspricht die Linearität der Parameter auch der Linearität dieser transformierten Prädiktoren.
Darüber hinaus sind viele Probleme nahezu linear (zumindest über den betrachteten Wertebereich) oder so verrauscht, dass keine leichte Krümmung erkennbar ist, und eine Vielzahl einfacher Modelle für eine zunehmende oder abnehmende Beziehung könnte dies tun. und in diesem Fall kann eine lineare Wahl sowohl angemessen als auch am einfachsten anzupassen und zu verstehen sein.
Das einzige Mal, wenn ich nach einem Problem suche, auf das ich die Regression anwenden kann, ist der Versuch, ein gutes Beispiel für das Unterrichten zu finden. Wenn ich tatsächlich in der Lage bin, statistische Arbeit zu leisten (anstatt sie zu erklären oder zu lehren), wähle ich die Methodik, die der Frage von Interesse (und den Merkmalen der Daten) entspricht, und nicht die Daten, die der Methode entsprechen.
Stellen Sie sich zum Beispiel einen Tischler vor. Der Zimmermann nicht abholen eine Hobel und sagt : „Was kann ich dies auf?“. Vielmehr hat der Schreiner ein Problem zu lösen, und bei der Betrachtung der Merkmale des Problems ("Was versuche ich zu machen?" Und "Welche Art von Holz verwende ich?" Und so weiter ...) kann es sich um bestimmte Werkzeuge handeln relevanter als andere. Manchmal ist die Werkzeuge , die verfügbar sind , kann die Entscheidungen beschränken oder führen (wenn Sie nicht haben einen Hobel, können Sie mit etwas machen zu tun haben , sonst ... oder Sie können nur eine Hobel kaufen gehen müssen).
Aber nehmen wir an , dass Sie eine Tasche Statistiker haben helfen Ihnen und Sie versuchen , ein Problem zu linearen Regression geeignet zu finden. Dann könnten sie vorschlagen, dass Sie verschiedene Regressionsannahmen berücksichtigen und wann sie wichtig sind. Ich werde ein paar Dinge erwähnen.
Wenn Sie in der Lage sind, mehrere Regressionen zu verwenden, ist dies auch kein besonderes Problem, da Sie beispielsweise kubische Regressionssplines verwenden können, um relativ allgemeine Beziehungen anzupassen.
Ich würde vorschlagen, dass Sie sich im Laufe der Zeit von Daten fernhalten, es sei denn, Sie verstehen die Probleme mit der falschen Regression. bei Querschnittsproblemen bleiben.
Wenn Sie an Hypothesentests, Konfidenzintervallen oder Vorhersageintervallen interessiert sind, sind möglicherweise mehr der üblichen Regressionsannahmen von Bedeutung (aber es gibt Alternativen, die diese Annahmen nicht treffen, und in einigen Fällen können zumindest einige der Annahmen dies nicht tun besonders wichtig sein).
Zumindest sollte man sich bewusst machen, welche Annahmen getroffen werden, um die von Ihnen verwendeten Inferenzverfahren abzuleiten, und wie wichtig sie für Ihr spezielles Problem sein können (beispielsweise bei der Durchführung der üblichen Hypothesentests). Normalität ist eine Annahme, aber in großen Stichproben ist diese Annahme möglicherweise nicht wichtig. Andererseits ist die Annahme einer konstanten Varianz möglicherweise ein größeres Problem.
Es gibt eine Reihe von Beiträgen, in denen Annahmen zur Regression erörtert werden, und einige Beiträge, in denen erörtert wird, wann sie überhaupt erstellt werden müssen, wie wichtig sie sind und in welcher Reihenfolge sie berücksichtigt werden müssen.
quelle
quelle
@ Glen_b gab eine sehr gute Antwort, aber, wie bereits erwähnt, nicht zu Ende.
Also, zu deiner letzten Frage:
Ich glaube, ein erfahrener Statistiker würde diese Frage nicht stellen. Wie Glen feststellt, sind die Werkzeuge vom Problem abhängig und nicht umgekehrt.
Wenn ich versuchen würde, eine Technik wie die lineare Regression zu erlernen, würde ich bereits erarbeitete Beispiele verwenden - aber solche, die echte Daten enthielten und keine Daten, die die Dinge vereinfachen sollten. Ein Buch wie " Regression Modeling by Example" kann als Anleitung dienen.
Einer der ersten Schritte bei der Betrachtung eines Regressionsproblems ist jedoch die Entscheidung, ob eine lineare Regression tatsächlich geeignet ist.
quelle
In vielen Antworten wurden die Annahmen angesprochen, die erfüllt werden müssen: Linearität der Residuen, Homogenität der Varianz über den Bereich des Prädiktors, keine Extremwerte, die die Regressionsgerade beeinflussen könnten, und unabhängige Beobachtungen. Mit den meisten Regressionsprogrammen lassen sich Residuendiagramme relativ einfach erstellen, und einige Pakete stellen einige automatisch bereit (SAS).
Eine Person sprach über die Transformation von y. Dies ist in einigen Bereichen üblich, führt jedoch zu voreingenommenen und möglicherweise nicht interpretierbaren Ergebnissen. Die Verzerrung wird angezeigt, wenn Sie versuchen, die Ergebnisse in die ursprüngliche Metrik umzuwandeln. Wechseln Sie lieber zu einer anderen Art von Regression, deren Residuenmuster mit den Verteilungsannahmen der Residuen übereinstimmen. Siehe Kapitel 3 in Agrestis Einführung in die kategoriale Datenanalyse, wo er das Konzept der Verknüpfungen einführt. Eine Reihe von Regressionslehrbüchern führt auch das verallgemeinerte lineare Modell ein.
quelle