Wie ist die Beziehung zwischen R-Quadrat und p-Wert in einer Regression?

17

tl; dr - Bedeutet ein höheres R-Quadrat für die OLS-Regression auch einen höheren P-Wert? Speziell für eine einzelne erklärende Variable (Y = a + bX + e), wäre aber auch interessiert, für n mehrere erklärende Variablen (Y = a + b1X + ... bnX + e) ​​Bescheid zu wissen.

Kontext - Ich führe eine OLS-Regression für eine Reihe von Variablen durch und versuche, die beste erklärende Funktionsform zu entwickeln, indem ich eine Tabelle erzeuge, die die R-Quadrat-Werte zwischen den linearen, logarithmischen usw. Transformationen jeder erklärenden (unabhängigen) Variablen enthält und die (abhängige) Antwortvariable. Das sieht ein bisschen so aus:

Variablenname --lineare Form-- --ln (Variable) --exp (Variable) - ... etc

Variable 1 ------- R-Quadrat ---- R-Quadrat ---- R-Quadrat -
... etc ...

Ich frage mich, ob R-Quadrat angemessen ist oder ob P-Werte besser wären. Vermutlich gibt es eine Beziehung, da eine signifikantere Beziehung eine höhere Erklärungskraft implizieren würde, aber nicht sicher ist, ob dies auf rigorose Weise zutrifft.

ökonometrische statsfrage
quelle
5
Ebenfalls von Interesse: Ist R ^ 2 nützlich oder gefährlich? .
Whuber

Antworten:

15

Die Antwort lautet nein, es gibt keine solche regelmäßige Beziehung zwischen und dem p-Wert der Gesamtregression, da ebenso stark von der Varianz der unabhängigen Variablen abhängt wie von der Varianz der Residuen (zu denen es gehört) ist umgekehrt proportional), und Sie können die Varianz der unabhängigen Variablen um beliebige Beträge ändern.R 2R2R2

Betrachten Sie als Beispiel einen beliebigen Satz multivariater Daten wobei die Fälle indiziert, und nehmen Sie an, dass der Wertesatz der ersten unabhängigen Variablen , , hat eine eindeutige maximale aus dem zweithöchsten Wert um einen positiven Betrag getrennt . Wenden Sie eine nichtlineare Transformation der ersten Variablen an, die alle Werte kleiner als in den Bereich sendet und selbst an einen großen Wert sendet . Für einen solcheni { x i 1 } x * ε x * - ε / 2 [ 0 , 1 ] x * M » 1 M x a ( ( x - x 0 ) λ - 1 ) /((xi1,xi2,,xip,yi))i{xi1}xϵxϵ/2[0,1]xM1MDies kann zum Beispiel durch eine geeignete (skalierte) Box-Cox-Transformation von , wir sprechen also nicht über irgendetwas seltsam oder "pathologisch". Wenn willkürlich groß wird, nähert sich so genau, wie Sie möchten, unabhängig davon, wie schlecht die Anpassung ist, da die Varianz der Residuen begrenzt wird, während die Varianz der ersten unabhängigen Variablen asymptotisch proportional zu .M R 2 1 M 2xa((xx0)λ1)/(λ1))MR21M2


Sie sollten stattdessen (neben anderen Techniken) Anpassungsgütetests verwenden , um ein geeignetes Modell für Ihre Untersuchung auszuwählen: Sie sollten sich über die Linearität der Anpassung und die Homoskedastizität der Residuen Gedanken machen . Nehmen Sie keine p-Werte aus der resultierenden Regression des Vertrauens: Sie werden nach Abschluss dieser Übung fast bedeutungslos, da ihre Interpretation davon ausgeht, dass die Wahl der Ausdrücke für die unabhängigen Variablen nicht von den Werten des abhängt abhängige Variable überhaupt, was hier sehr viel nicht der Fall ist.

whuber
quelle
10

Diese Antwort befasst sich nicht direkt mit der zentralen Frage; Es ist nichts weiter als ein paar zusätzliche Informationen, die für einen Kommentar zu lang sind.

Ich weise darauf diese, weil econometricstatsquestion kein Zweifel , wird diese Informationen begegnen, oder so etwas wie es an einem gewissen Punkt ( die besagt , dass und sind bezogen) und frage mich , ob die Informationen in anderen Antworten gegeben ist hier falsch - es ist nicht falsch - aber ich denke, es lohnt sich klar zu sein, was los ist.R 2FR2

Unter bestimmten Umständen besteht eine Beziehung. Wenn Sie die Anzahl der Beobachtungen und die Anzahl der Prädiktoren für ein gegebenes Modell festhalten, ist in tatsächlich monoton , daR 2FR2

F=R2/(k1)(1R2)/(Nk)

(Wenn Sie Zähler und Nenner durch teilen und die Konstanten in herausziehen , können Sie sehen, dass wenn Sie und konstant halten.) k 1 / F 1 / R 2 - 1 N kR2k1/F1/R21Nk

Da für feste df und den p-Wert sind monoton bezogen, und die - Wert ist ebenfalls monoton bezogen.R 2 pFR2p

Aber ändern Sie fast alles am Modell, und diese Beziehung gilt nicht für die veränderten Umstände.

Zum Beispiel das Hinzufügen macht einen Punkt größer und man macht es kleiner Entfernung aber entweder tun kann erhöhen oder verringern , so dass es aussieht wie und nicht notwendigerweise zusammen bewegen , wenn Sie fügen Daten hinzu oder löschen sie. Das Hinzufügen einer Variablen verringert , erhöht aber (und umgekehrt), so dass nicht unbedingt mit wenn Sie dies tun.R 2 F R 2 ( N - k ) / ( k - 1 ) R 2 R 2 F(Nk)/(k1)R2FR2 (Nk)/(k1)R2R2F

Natürlich , wenn Sie vergleichen und - Werte für Modelle mit unterschiedlichen Eigenschaften, ist diese Beziehung nicht unbedingt halten, wie whuber im Fall von nichtlinearen Transformationen unter Beweis gestellt. pR2p

Glen_b - Setzen Sie Monica wieder ein
quelle
Ich bin mit Ihnen nicht einverstanden, aber es sieht so aus, als würden Sie eine andere Frage beantworten als ich. Es dauerte einige Lektüre, aber ich kam zu dem Schluss, dass die Frage, ob eine Beziehung zwischen und wenn (caeteris paribus) unabhängige Variablen nichtlinear transformiert werden. Nur wenn diese Variablen unverändert bleiben - oder höchstens linear untereinander transformiert werden -, können wir überhaupt etwas über eine solche Beziehung sagen. Das ist ein Teil des Sinns, in dem ich denke, dass Ihr Qualifikationsmerkmal "für ein bestimmtes Modell" verstanden werden muss. R 2pR2
Whuber
Ich beantworte eine andere Frage. und ich glaube, Ihre Interpretation der Bedeutung ist richtig. Ich war besorgter, dass ein solches Problem, wie ich es ansprach, zu Verwirrung führen würde, wenn es nicht erklärt würde. Alle Ihre Punkte gelten nach meinem Verständnis. (Jetzt mache ich mir in der Tat Sorgen, dass meine Antwort möglicherweise nicht der Klärung dient, wie ich es mir erhofft hatte, sondern das Problem nur verwirrt. Glauben Sie, dass es eine geeignete Modifikation gibt, die diesbezüglich Abhilfe schafft? Sollte ich sie löschen?)
Glen_b -Reinstate Monica
Ich würde es hassen, wenn es gelöscht würde, Glen. Wenn Sie Änderungen vornehmen möchten, sollten Sie expliziter darauf hinweisen, über welche Aspekte dieses Problems Sie schreiben ( z. B. was genau Sie unter einem "gegebenen Modell" verstehen und was Sie über Modelle mit "unterschiedlichen Merkmalen" denken). Dies war der Geist (kollaborativ, nicht kritisch), in dem ich meinen Kommentar abgab.
Whuber
Ich fühlte mich von Ihnen nicht kritisiert - Sie schienen zu klären und nichts weiter -, aber die Notwendigkeit zeigt eine Unzulänglichkeit in der Antwort, um die ich mir Sorgen gemacht hatte, bevor Sie dies kommentierten. Die Unbestimmtheit der 'verschiedenen Eigenschaften' liegt daran, dass es eine ziemlich allgemeine Sache ist - variieren Sie viel von allem (ich gebe sogar Beispiele für etwas, das so einfach ist wie das Entfernen eines Punktes oder das Hinzufügen einer Variablen, um zu veranschaulichen, wie wenig man ändern muss), um diese monotone Beziehung herzustellen verdampfen. Ich werde darüber nachdenken, was ich noch sagen könnte.
Glen_b -Reinstate Monica
+1 für die Bearbeitung: Dies sind wertvolle Kommentare und es ist besonders nützlich, die Formel für . F
Whuber
3

Bedeutet ein höheres R-Quadrat für die OLS-Regression auch einen höheren P-Wert? Speziell für eine einzelne erklärende Variable (Y = a + bX + e)

Speziell für eine einzelne erklärende Variable lautet die Antwort bei gegebener Stichprobengröße Ja. Wie Glen_b erklärt hat, besteht eine direkte Beziehung zwischen und der Teststatistik (sei es ein oder ein ). Zum Beispiel ist, wie in dieser anderen Frage ( hohes Quadrat und hoher Wert für einfache lineare Regression ) für die einfache lineare Regression mit einer Kovariate (und einer Konstante) erklärt, die Beziehung zwischen und : F t R 2 p t R 2R2FtR2ptR2

|t|=R2(1R2)(n2)

In diesem Fall ist die Statistik umso höher und der p-Wert umso niedriger , je höher ist, sobald Sie festlegen .R 2 tnR2t

"wäre aber auch interessiert, für n mehrere erklärende Variablen (Y = a + b1X + ... bnX + e) ​​zu wissen."

Die Antwort ist dieselbe, aber anstatt nur eine Variable zu betrachten, betrachten wir jetzt alle Variablen zusammen - daher die Statistik, wie Glen_b gezeigt hat. Und hier müssen Sie sowohl als auch die Anzahl der Parameter festlegen . Oder, um es besser auszudrücken, die Freiheitsgrade festlegen.nFn

Kontext - Ich führe eine OLS-Regression für eine Reihe von Variablen durch und versuche, die beste erklärende Funktionsform zu entwickeln (...)

Ok, das ist eigentlich ein anderes Problem. Wenn Sie nach der besten erklärenden Funktionsform suchen, sollten Sie sich auch mit Kreuzvalidierungstechniken befassen. Selbst wenn die Menge ist, die für Ihr Problem von Interesse ist (normalerweise nicht), kann es sehr irreführend sein, die am besten passende Stichprobe zu finden. In der Regel möchten Sie, dass Ihre Ergebnisse außerhalb der Stichprobe verallgemeinert werden und eine ordnungsgemäße Kreuzvalidierung erfolgt kann Ihnen dabei helfen, Ihre Daten nicht zu sehr zu überarbeiten.R2

Und hier vermute ich, dass Sie "Vorhersagekraft" wollen (da Sie sagen, Sie wollen "die beste erklärende funktionale Form" finden). Wenn Sie beispielsweise kausale Schlussfolgerungen ziehen möchten, sind oder andere prädiktive Leistungsmetriken ohne strukturellere / fundiertere Kenntnisse des Problems wenig hilfreich.R2

Carlos Cinelli
quelle