Hinweise darauf, dass ein Problem für die lineare Regression gut geeignet ist

12

Ich lerne die lineare Regression mithilfe der Einführung in die lineare Regressionsanalyse von Montgomery, Peck und Vining . Ich möchte ein Datenanalyseprojekt auswählen.

Ich habe den naiven Gedanken, dass eine lineare Regression nur dann geeignet ist, wenn man vermutet, dass es lineare funktionale Beziehungen zwischen erklärenden Variablen und der Antwortvariablen gibt. Aber nicht viele reale Anwendungen scheinen dieses Kriterium zu erfüllen. Dabei ist die lineare Regression so weit verbreitet.

Über welche Facetten eines Projekts würde sich ein erfahrener Statistiker Gedanken machen, wenn er in meinen Schuhen steckt und nach einer Frage + Daten sucht, die sich gut für eine lineare Regression eignen.

regression data-transformation model linear regression-strategies cwackers
quelle

3

Ich schätze, dass Sie eine Technik erlernen und wissen möchten, wo sie funktionieren wird. Für erfahrene Statistiker (und statistisch denkende Wissenschaftler) ist die Situation jedoch umgekehrt: Es gibt ein Problem und Daten, und dann stellt sich die Frage, welche Modelle und Methoden die beste Wahl sind. Sie werden sehen, dass die lineare Regression, wie sie zum ersten Mal auftritt, nur eine Variante ist. Mit der Erfahrung ist man glücklich, zu Poisson-Regression, Logit-Regression usw. zu springen, und sogar Linearität der Parameter kann leicht mit allgemeineren Strukturen kombiniert werden.

Nick Cox

Und natürlich werden Zeitreihen erstellt, wenn die Beobachtungen möglicherweise

automatisch korrelieren

3

In der Realität werden die linearen Modelle links und rechts verwendet, auch wenn wir wissen, dass die Beziehung nichtlinear ist. Stellen Sie sich ein lineares Modell als eine Annäherung erster Ordnung vor, eine Art multivariate Taylor-Expansion.

Aksakal

12

Ich habe den naiven Gedanken, dass eine lineare Regression nur dann geeignet ist, wenn man vermutet, dass es lineare funktionale Beziehungen zwischen erklärenden Variablen und der Antwortvariablen gibt. Aber nicht viele reale Anwendungen scheinen dieses Kriterium zu erfüllen.

Dies ist kein korrektes Verständnis dessen, was "linear" in "linearer Regression" ist.

Es wird nicht angenommen, dass die Beziehung zwischen und linear ist (obwohl alle elementaren Beispiele Sie wahrscheinlich irreführen werden). $y$ $x$

Der Begriff "linear" bezieht sich darauf, dass das Modell in den Parametern linear ist, und nichtlineare Beziehungen zwischen und einigen können auf diese Weise sicherlich modelliert werden. $y$ $x$

Es ist ein Beispiel mit einem einzigen Prädiktor hier , aber gekrümmten Modelle sind häufiger als multiple Regression eingebaut, wo mehrere Funktionen eines Prädiktor (x Variable, unabhängige Variable) in der Regression auftreten können, und dies ermöglicht eine große Flexibilität. Dazu gehört beispielsweise die polynomiale Regression. Siehe einige Diskussionen und Beispiele hier .

Wenn wir jedoch die Tatsache berücksichtigen, dass Prädiktoren transformiert werden können, um sie an gekrümmte Beziehungen anzupassen, entspricht die Linearität der Parameter auch der Linearität dieser transformierten Prädiktoren.

Darüber hinaus sind viele Probleme nahezu linear (zumindest über den betrachteten Wertebereich) oder so verrauscht, dass keine leichte Krümmung erkennbar ist, und eine Vielzahl einfacher Modelle für eine zunehmende oder abnehmende Beziehung könnte dies tun. und in diesem Fall kann eine lineare Wahl sowohl angemessen als auch am einfachsten anzupassen und zu verstehen sein.

Über welche Facetten eines Projekts würde sich ein erfahrener Statistiker Gedanken machen, wenn er in meinen Schuhen steckt und nach einer Frage + Daten sucht, die sich gut für eine lineare Regression eignen.

Das einzige Mal, wenn ich nach einem Problem suche, auf das ich die Regression anwenden kann, ist der Versuch, ein gutes Beispiel für das Unterrichten zu finden. Wenn ich tatsächlich in der Lage bin, statistische Arbeit zu leisten (anstatt sie zu erklären oder zu lehren), wähle ich die Methodik, die der Frage von Interesse (und den Merkmalen der Daten) entspricht, und nicht die Daten, die der Methode entsprechen.

Stellen Sie sich zum Beispiel einen Tischler vor. Der Zimmermann nicht abholen eine Hobel und sagt : „Was kann ich dies auf?“. Vielmehr hat der Schreiner ein Problem zu lösen, und bei der Betrachtung der Merkmale des Problems ("Was versuche ich zu machen?" Und "Welche Art von Holz verwende ich?" Und so weiter ...) kann es sich um bestimmte Werkzeuge handeln relevanter als andere. Manchmal ist die Werkzeuge , die verfügbar sind , kann die Entscheidungen beschränken oder führen (wenn Sie nicht haben einen Hobel, können Sie mit etwas machen zu tun haben , sonst ... oder Sie können nur eine Hobel kaufen gehen müssen).

Aber nehmen wir an , dass Sie eine Tasche Statistiker haben helfen Ihnen und Sie versuchen , ein Problem zu linearen Regression geeignet zu finden. Dann könnten sie vorschlagen, dass Sie verschiedene Regressionsannahmen berücksichtigen und wann sie wichtig sind. Ich werde ein paar Dinge erwähnen.

$E(y|g(x))$ $g(x)$ $g$ $x^*=x$ $E(y|x^*)=a+bx*$

Wenn Sie in der Lage sind, mehrere Regressionen zu verwenden, ist dies auch kein besonderes Problem, da Sie beispielsweise kubische Regressionssplines verwenden können, um relativ allgemeine Beziehungen anzupassen.

Ich würde vorschlagen, dass Sie sich im Laufe der Zeit von Daten fernhalten, es sei denn, Sie verstehen die Probleme mit der falschen Regression. bei Querschnittsproblemen bleiben.

$x$ $x$

$x$

Wenn Sie an Hypothesentests, Konfidenzintervallen oder Vorhersageintervallen interessiert sind, sind möglicherweise mehr der üblichen Regressionsannahmen von Bedeutung (aber es gibt Alternativen, die diese Annahmen nicht treffen, und in einigen Fällen können zumindest einige der Annahmen dies nicht tun besonders wichtig sein).

Zumindest sollte man sich bewusst machen, welche Annahmen getroffen werden, um die von Ihnen verwendeten Inferenzverfahren abzuleiten, und wie wichtig sie für Ihr spezielles Problem sein können (beispielsweise bei der Durchführung der üblichen Hypothesentests). Normalität ist eine Annahme, aber in großen Stichproben ist diese Annahme möglicherweise nicht wichtig. Andererseits ist die Annahme einer konstanten Varianz möglicherweise ein größeres Problem.

Es gibt eine Reihe von Beiträgen, in denen Annahmen zur Regression erörtert werden, und einige Beiträge, in denen erörtert wird, wann sie überhaupt erstellt werden müssen, wie wichtig sie sind und in welcher Reihenfolge sie berücksichtigt werden müssen.

Glen_b - Setzen Sie Monica wieder ein
quelle

Schöne Antwort, aber ich denke, es beantwortet die Frage nicht vollständig. Über welche Facetten eines Projekts würde sich ein erfahrener Statistiker Gedanken machen, wenn er in meinen Schuhen steckt und nach einer Frage + Daten sucht, die sich gut für eine lineare Regression eignen. bleibt unbeantwortet.

Dawny33

@ Dawny33 Ich beabsichtige definitiv, später mehr hinzuzufügen - einige Dinge kamen auf, während ich das tippte, was mich daran hinderte, die vollständige Antwort zu schreiben, die ich ursprünglich beabsichtigt hatte; Ich hatte nur Zeit, den Satz zu beenden, an dem ich war, und komme jetzt vielleicht ein oder zwei Tage lang nicht mehr darauf zurück. In der Tat hatte ich nicht einmal Zeit, alle Tippfehler darin zu korrigieren. (In der Zwischenzeit sollten Sie nicht zögern, eine Antwort zu schreiben.) Wenn Sie andererseits darauf hinweisen, dass die Prämisse der Frage fehlerhaft ist, kann dies dazu führen, dass das OP andere Fragen stellen möchte als ursprünglich beabsichtigt (dies ist häufig der Fall, wenn das zentrale Prämisse scheitert)

Glen_b -Reinstate Monica

Ich gehe zum Beispiel davon aus, dass eine neue Frage auftauchen könnte: "Haben Sie ein Beispiel?".

Glen_b

@ Glen_b danke. Der Begriff "linear" bezieht sich darauf, dass das Modell in den Parametern linear ist . Entschuldigung, wenn ich falsch geschrieben habe, wollte ich nichts anderes implizieren. Das Schlüsselwort war funktional .

Cwackers

@ Glen_b Sie könnten vorschlagen, dass Sie verschiedene Regressionsannahmen berücksichtigen . Wieder einverstanden. Ich war nicht explizit darüber, aber mein Q ist mehr über Domain-Wissen. Ich frage mich, wonach ein erfahrener Statistiker in dem System suchen würde, das für die LR-Analyse in Betracht gezogen wird, daher mein naiver Vorschlag, dass es Regressoren gibt, die linear und funktional mit der Antwort zusammenhängen und deren gleichzeitige Beziehung zur Antwort additiv ist.

Cwackers

4

$Y$ $Y$ $Y$ $Y$ $Y$ $X$ ) Gut. Über viele Jahre hinweg werden Sie feststellen, dass sich bestimmte Variablen wie der Blutdruck in einem linearen Modell tendenziell gut verhalten und andere (z. B. blutchemische Messungen) nicht.

$Y$ $Y$

Frank Harrell
quelle

Vielen Dank für den Hinweis auf den Aspekt des guten Benehmens. Ich habe an Transformationen der Regressoren gedacht, aber nicht an die Antwortvariable. Jetzt sehe ich jedoch, wie das letztere verwendet werden könnte, um die Verteilung der Residuen umzugestalten. Vielen Dank, dass Sie einen Teil des Bildes ausgefüllt haben. Ein sehr hilfreicher Beitrag.

Cwackers

3

@ Glen_b gab eine sehr gute Antwort, aber, wie bereits erwähnt, nicht zu Ende.

Also, zu deiner letzten Frage:

Ich glaube, ein erfahrener Statistiker würde diese Frage nicht stellen. Wie Glen feststellt, sind die Werkzeuge vom Problem abhängig und nicht umgekehrt.

Wenn ich versuchen würde, eine Technik wie die lineare Regression zu erlernen, würde ich bereits erarbeitete Beispiele verwenden - aber solche, die echte Daten enthielten und keine Daten, die die Dinge vereinfachen sollten. Ein Buch wie " Regression Modeling by Example" kann als Anleitung dienen.

Einer der ersten Schritte bei der Betrachtung eines Regressionsproblems ist jedoch die Entscheidung, ob eine lineare Regression tatsächlich geeignet ist.

Peter Flom - Wiedereinsetzung von Monica
quelle

Ich glaube, ein erfahrener Statistiker würde diese Frage nicht stellen. ja, deshalb habe ich mein Q mit "in my shoes" bewertet. Vielen Dank für die Buchempfehlung. Ich werde eine Kopie aufspüren. Eine Reihe von Beispielen würde mindestens der Hälfte der Geschichte helfen, wobei die Gegenbeispiele die andere Hälfte sind.

Cwackers

Ahhh, ein Zitat! ab Seite 2 der 4. Ausgabe: Wir laden die Leser ein, über Fragen (in ihren eigenen Arbeitsgebieten, Forschungsgebieten oder Interessengebieten) nachzudenken, die mit Hilfe von Regressionsanalysen angegangen werden können.

Cwackers

0

In vielen Antworten wurden die Annahmen angesprochen, die erfüllt werden müssen: Linearität der Residuen, Homogenität der Varianz über den Bereich des Prädiktors, keine Extremwerte, die die Regressionsgerade beeinflussen könnten, und unabhängige Beobachtungen. Mit den meisten Regressionsprogrammen lassen sich Residuendiagramme relativ einfach erstellen, und einige Pakete stellen einige automatisch bereit (SAS).

Eine Person sprach über die Transformation von y. Dies ist in einigen Bereichen üblich, führt jedoch zu voreingenommenen und möglicherweise nicht interpretierbaren Ergebnissen. Die Verzerrung wird angezeigt, wenn Sie versuchen, die Ergebnisse in die ursprüngliche Metrik umzuwandeln. Wechseln Sie lieber zu einer anderen Art von Regression, deren Residuenmuster mit den Verteilungsannahmen der Residuen übereinstimmen. Siehe Kapitel 3 in Agrestis Einführung in die kategoriale Datenanalyse, wo er das Konzept der Verknüpfungen einführt. Eine Reihe von Regressionslehrbüchern führt auch das verallgemeinerte lineare Modell ein.

Leslie
quelle

Ich teile den Pessimismus bezüglich der Transformation nicht. Immerhin ist die ursprüngliche Transformation ziemlich willkürlich. Wenn Sie transformieren und Residuen mit einer symmetrischen Verteilung erhalten, ist die Rücktransformation der vorhergesagten Werte der vorhergesagte Median auf der ursprünglichen Skala. Vorausgesagte Mediane sind sehr nützlich. Wenn Sie vorhergesagte Mittelwerte auf der ursprünglichen Skala erhalten möchten, können Sie den Schmierschätzer verwenden.

Frank Harrell

Hinweise darauf, dass ein Problem für die lineare Regression gut geeignet ist

Antworten: