Einfache lineare Regression, p-Werte und der AIC

13

Mir ist klar, dass dieses Thema schon einige Male vorgekommen ist , aber ich bin mir immer noch unsicher, wie ich meine Regressionsergebnisse am besten interpretieren kann.

Ich habe einen sehr einfachen Datensatz, bestehend aus einer Spalte mit x-Werten und einer Spalte mit y-Werten , aufgeteilt in zwei Gruppen nach Ort (loc). Die Punkte sehen so aus

Bildbeschreibung hier eingeben

Ein Kollege hat die Hypothese aufgestellt, dass wir jeder Gruppe, die ich verwendet habe, separate einfache lineare Regressionen zuordnen sollten y ~ x * C(loc). Die Ausgabe wird unten gezeigt.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

Bildbeschreibung hier eingeben

Bei Betrachtung der p-Werte für die Koeffizienten unterscheiden sich die Dummy-Variable für die Position und der Interaktionsterm nicht wesentlich von Null. In diesem Fall reduziert sich mein Regressionsmodell im Wesentlichen auf die rote Linie in der obigen Darstellung. Für mich deutet dies darauf hin, dass das Anpassen separater Linien an die beiden Gruppen möglicherweise ein Fehler ist und ein besseres Modell eine einzelne Regressionslinie für den gesamten Datensatz darstellt, wie unten gezeigt.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

Bildbeschreibung hier eingeben

Das sieht für mich optisch in Ordnung aus, und die p-Werte für alle Koeffizienten sind jetzt signifikant. Der AIC für das zweite Modell ist jedoch viel höher als für das erste.

Mir ist klar, dass es bei der Modellauswahl nicht nur um p-Werte oder nur um den AIC geht, aber ich bin mir nicht sicher, was ich daraus machen soll. Kann jemand praktische Ratschläge zur Interpretation dieser Ausgabe und zur Auswahl eines geeigneten Modells geben? ?

Meines Erachtens sieht die einzelne Regressionsgerade in Ordnung aus (obwohl mir klar ist, dass keine besonders gut ist), aber es scheint, als gäbe es zumindest eine Rechtfertigung für die Anpassung separater Modelle (?).

Vielen Dank!

Als Antwort auf Kommentare bearbeitet

@Cagdas Ozgenc

Das zweizeilige Modell wurde mit Pythons Statistikmodellen und dem folgenden Code ausgestattet

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

So wie ich es verstehe, ist dies im Wesentlichen nur eine Abkürzung für ein Modell wie dieses

y=β0+β1x+β2l+β3xl

lloc=Dl=0

y=β0+β1x

loc=Nl=1

y=(β0+β2)+(β1+β3)x

Welches ist die blaue Linie auf dem Grundstück oben. Der AIC für dieses Modell wird automatisch in der Statistikmodellzusammenfassung angegeben. Für das einzeilige Modell habe ich einfach gebraucht

reg = ols(formula='y ~ x', data=df).fit()

Ich finde das ok

@ user2864849

Ich denke nicht, dass das Einlinienmodell offensichtlich besser ist, aber ich mache mir Sorgen darüber, wie schlecht die Regressionsgerade für eingeschränkt ist loc=D

Bearbeiten 2

Der Vollständigkeit halber hier die von @whuber vorgeschlagenen Residuendiagramme. Das zweizeilige Modell sieht in dieser Hinsicht in der Tat viel besser aus.

Zweizeiliges Modell

Bildbeschreibung hier eingeben

Einzeiliges Modell

Bildbeschreibung hier eingeben

Vielen Dank an alle!

JamesS
quelle
3
Möchten Sie erklären, warum die einzelne Regressionsgerade für Sie besser aussieht? Für mich sehe ich zwei Cluster, die linear trennbar sind und die Kategorie N hat sehr wenig Varianz. Denken Sie, dass das erste wegen der überlappenden Vertrauensbereiche schlechter ist?
Marsenau,
6
x
3
R2
3
@StudentT Beide Modelle verwenden alle Datenpunkte. Das einfache Modell verwendet weniger unabhängige Variablen. Ein Datenpunkt ist das gesamte Tupel.
Cagdas Ozgenc
5
Wenn Sie einen Hypothese-Test basierten Ansatz zur Modellauswahl zu übernehmen wollen, müssen Sie nicht davon ausgehen , dass da zwei Prädiktoren sind jeweils unbedeutend Entfernen sowohl aus dem Modell wenig Import haben. Der F-Test für die gemeinsame Signifikanz ist der geeignete.
Scortchi

Antworten:

1

Haben Sie versucht, beide Prädiktoren ohne die Interaktion zu verwenden? So wäre es:

y ~ x + Loc

Der AIC ist im ersten Modell möglicherweise besser, da die Position wichtig ist. Die Wechselwirkung ist jedoch nicht wichtig, weshalb die P-Werte nicht signifikant sind. Sie würden es dann als den Effekt von x interpretieren, nachdem Sie für Loc gesteuert haben.

AJ12
quelle
1

Ich denke, Sie haben es gut gemacht, die Vorstellung in Frage zu stellen, dass p-Werte und AIC-Werte allein die Lebensfähigkeit eines Modells bestimmen können. Ich bin auch froh, dass du es hier geteilt hast.

Wie Sie gezeigt haben, gibt es verschiedene Kompromisse, wenn Sie verschiedene Begriffe und möglicherweise deren Wechselwirkung berücksichtigen. Eine Frage, die Sie sich stellen sollten, ist die Zweck des Modells. Wenn Sie beauftragt sind, die Auswirkung der Position auf zu bestimmen y, sollten Sie die Position im Modell beibehalten, unabhängig davon, wie schwach der p-Wert ist. Ein Null-Ergebnis ist in diesem Fall selbst eine wichtige Information.

Auf den ersten Blick scheint das klar zu sein D Ort eine größere impliziert y. Es gibt jedoch nur einen begrenzten Bereich, xfür den Sie sowohl Dals auch NWerte für den Standort haben. Das Regenerieren Ihrer Modellkoeffizienten für dieses kleine Intervall wird wahrscheinlich einen viel größeren Standardfehler ergeben.

Aber vielleicht interessiert Sie der Ort nicht, der über seine Vorhersagbarkeit hinausgeht y. Es waren Daten, die Sie gerade hatten, und die Farbcodierung auf Ihrem Plot ergab ein interessantes Muster. In diesem Fall interessiert Sie möglicherweise mehr die Vorhersagbarkeit des Modells als die Interpretierbarkeit Ihres Lieblingskoeffizienten. Ich vermute, dass AIC-Werte in diesem Fall nützlicher sind. Ich bin noch nicht mit AIC vertraut. aber ich vermute, es kann die gemischte Bezeichnung bestrafen, weil es nur einen kleinen Bereich gibt, in dem Sie den Ort für feste ändern können x. Es gibt nur sehr wenige Gründe für diesen Ortx nicht schon erklärt wurde.

pglezen
quelle
0

Sie müssen beide Gruppen separat melden (oder möglicherweise eine mehrstufige Modellierung in Betracht ziehen). Das einfache Kombinieren der Gruppen verletzt eine der Grundannahmen der Regression (und die meisten anderen inferentiellen statistischen Techniken), die Unabhängigkeit von Beobachtungen. Oder anders ausgedrückt: Die Gruppierungsvariable (Position) ist eine versteckte Variable, sofern sie nicht in Ihrer Analyse berücksichtigt wird.

Im Extremfall kann das Ignorieren einer Gruppierungsvariablen zu Simpsons Paradoxon führen. In diesem Paradox können Sie zwei Gruppen haben, in denen es eine positive Korrelation gibt, aber wenn Sie sie kombinieren, haben Sie eine (falsche, falsche) negative Korrelation. (Oder natürlich umgekehrt.) Siehe http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/ .

MikeG
quelle