Ist es realistisch, dass alle Variablen in einem multiplen Regressionsmodell von hoher Bedeutung sind?

8

Ich möchte den Kraftstoffverbrauch bei Hubraum, Kraftstoffart, 2- oder 4-Rad-Antrieb, Leistung, manuellem oder automatischem Getriebe und der Anzahl der Geschwindigkeiten senken. Mein Datensatz ( Link ) enthält Fahrzeuge von 2012-2014.

  • fuelEconomy in Meilen pro Gallone
  • engineDisplacement: Motorgröße in Litern
  • fuelStd: 1 für Gas 0 für Diesel
  • wheelDriveStd: 1 für Allradantrieb, 0 für Allradantrieb
  • hp: Pferdestärken
  • transStd: 1 für Automatik, 0 für Manuell
  • transSpeed: Anzahl der Geschwindigkeiten

R-Code:

reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + 
                       transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + 
    hp + transStd + transSpeed, data = a)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2765  -2.3142  -0.0655   2.0944  15.8637 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)        48.147115   0.542910  88.683  < 2e-16 ***
engineDisplacement -3.673549   0.091272 -40.248  < 2e-16 ***
fuelStd            -6.613112   0.403989 -16.370  < 2e-16 ***
wheelDriveStd       2.778134   0.137775  20.164  < 2e-16 ***
hp                 -0.005884   0.001008  -5.840 5.86e-09 ***
transStd           -0.351853   0.157570  -2.233   0.0256 *  
transSpeed         -0.080365   0.052538  -1.530   0.1262    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.282 on 2648 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.7802,    Adjusted R-squared:  0.7797 
F-statistic:  1566 on 6 and 2648 DF,  p-value: < 2.2e-16
  1. Sind die Ergebnisse realistisch oder mache ich hier etwas falsch, da die meisten Variablen statistisch hoch signifikant sind?
  2. Sind andere Modelle für diesen Zweck besser geeignet?
  3. Ist ein solches Ergebnis für die Interpretation verwendbar?
Bert
quelle

Antworten:

5

@AntoniParelleada hat gute Arbeit geleistet und einige der Standardtechniken für die Modelldiagnose demonstriert, mit denen Sie Ihr Modell bewerten können. Ich nehme an, Ihre Hauptsorge ist, dass "die meisten Variablen statistisch hoch signifikant sind".

Ich sehe nicht, dass Sie sich darüber per se Sorgen machen müssen. Aus Ihrer Ausgabe sehe ich, dass das Modell eine hat F-statistic: 1566 on 6 and 2648 DF. Das bedeutet, dass Sie Parameter für Variablen anpassen und über Daten verfügen . Dies gibt Ihnen eine enorme statistische Leistung . Unter der Annahme, dass es eine Beziehung zwischen Ihren Variablen und der Antwort gibt, die nicht völlig trivial ist, sollten Sie ein signifikantes Ergebnis erzielen. Ich bin eher überrascht, dass irgendetwas (nämlich ) nicht von Bedeutung ist. 6 2655662655transSpeed

Vielleicht ist Ihre Frage durch die Überzeugung motiviert, dass aus theoretischer Sicht eine Variable nichts fuelEconomydamit zu tun haben sollte, und Sie sind daher überrascht, dass sie von Bedeutung ist. (Wenn dies wahr wäre, wäre es ungewöhnlich gewesen, es in das Modell aufzunehmen.) Ein signifikantes Ergebnis bedeutet jedoch nicht unbedingt, dass eine Kovariate einen Einfluss auf die Reaktion hat, sodass dies kein Typ I sein muss Fehler . Da Ihre Daten mit ziemlicher Sicherheit beobachtend sind, erkennen Sie nur marginale Assoziationen. Das heißt, Autos mit Frontantrieb können sich beispielsweise auch typischerweise von Autos mit Hinterradantrieb unterscheiden, und zwar auf andere Weise als durch die Räder, die Leistung übertragen, und durch andere als die anderen im Modell enthaltenen Variablen. Somit wheelDriveStdwürde der Koeffizient für die Assoziation zwischen ihm messenund alle nicht eingeschlossenen Variablen korrelierten damit und fuelEconomy. Es kann also vernünftig sein, dass es signifikant ist, selbst wenn wir aus der Physik / Technik wussten, dass die Räder, die Leistung übertragen, nicht mit der Kraftstoffeffizienz zusammenhängen.

gung - Monica wieder einsetzen
quelle
Ich habe mehr maschinelles Lernen als Statistik. Können wir sagen, wenn wir große Datenmengen haben, z. B. Millionen Zeilen und Tausend Spalten, kümmert sich niemand mehr um das Merkmal "Bedeutung"?
Haitao Du
3
Ich würde es nicht unbedingt so charakterisieren, @ hxd1011. Wenn es wirklich keine Zuordnung gibt, beträgt die Fehlerrate von Typ I immer noch 0,05, sodass sich immer noch jemand darum kümmern könnte, aber Sie haben genug Leistung, um selbst sehr triviale Effekte zu erkennen. Als Analogie könnte es hilfreich sein zu lesen. Ist Normalitätstest „im Wesentlichen nutzlos“?
Gung - Reinstate Monica
Wirklich informativ. Ich frage mich, ob es einen Einzeiler gibt, den Sie hinzufügen könnten, um uns eine Referenz / Perspektive zu geben, damit wir Ihre Behauptung über die enorme statistische Leistung, die auf der F-Statistik basiert, intuitiv erfassen können.
Antoni Parellada
2
Es ist nur so , dass ist eine Menge von Daten, @AntoniParellada. N=2,655
Gung - Reinstate Monica
Vielen Dank! Bei Statistiken gehe ich immer davon aus, dass es mehr "versteckte" geben muss ... :-)
Antoni Parellada
4

Ich weiß sehr wenig über die Mechanik und Physik, aber das erste, was ich betrachten würde, ist die Regressionsdiagnostik, insbesondere die Diagramme von Residuen gegen angepasste Werte, für die wir uns wünschen, dass es kein Gesamtmuster gibt.

Sie haben ein lineares Modell angepasst, sodass jede Kovariate eine lineare Assoziation mit hat fuelEconomy. Wird dies durch die zugrunde liegende mechanische und physikalische Theorie unterstützt? Könnte es nichtlineare Assoziationen geben? In diesem Fall können Sie Modelle mit nichtlinearen Begriffen in Betracht ziehen, bestimmte Variablen transformieren oder ein additives Modell verwenden. Auch wenn die Assoziationen innerhalb Ihres tatsächlichen Datensatzes plausibel linear sind, sollten Sie die Ergebnisse nicht über Ihre Datengrenzen hinaus extrapolieren.

Robert Long
quelle
4

Eine Streudiagrammmatrix mit Lösskurven und Korrelationswerten (Absolutwerten) kann ein guter Ausgangspunkt sein:

Geben Sie hier die Bildbeschreibung ein

Wir können hier bemerken , die möglicherweise quadratische Beziehung fuelEconomyaufgetragen gegen beide lineDisplacementund hp, die auch in einem Nike - Swoosh Aussehen widerspiegelt in der Residuendiagramm . Es wäre interessant, das Vorhandensein einer Wechselwirkung zwischen diesen Begriffen zu untersuchen.

Geben Sie hier die Bildbeschreibung ein

Dieser Mangel an Linearität ist auch offensichtlich, wenn wir eine lineare Regression fuelEconomygegen durchführen linearDisplacement(ähnliche Ergebnisse können mit erzielt werden hp). Beachten Sie die rote Linie ...

Geben Sie hier die Bildbeschreibung ein

Dieser Effekt kann teilweise korrigiert werden, wodurch das Modell komplexer wird und ein quadratisches Modell eingeführt wird:

Geben Sie hier die Bildbeschreibung ein

0.82050.7798


Die dichotome Natur fuelStdund der wheeldriveStdeinfache Verschieben des Mittelwerts der vorhergesagten Werte sind in der Tat Dummy-codierte Variablen oder Faktoren. Dies ist auch auf dem anfänglichen Streudiagramm ersichtlich, kann jedoch mit Box-Diagrammen weiter visualisiert werden:

Geben Sie hier die Bildbeschreibung ein


Ein letzter Punkt in der Diagnose ist das Vorhandensein von Punkten mit hohem Hebel , die es wert sind, untersucht zu werden:

Geben Sie hier die Bildbeschreibung ein

Was ist zu schließen? Nichts kategorisches. Vielleicht nur, um die Wichtigkeit des Zeichnens für das Verständnis des Datensatzes und jedes ihm auferlegten Modells hervorzuheben.

Antoni Parellada
quelle
1

Die Antwort auf Ihre erste Frage hängt von Ihrem theoretischen Rahmen ab, davon, wie Sie die Hypothesen über die Beziehung zwischen abhängigen und unabhängigen Variablen aufstellen und wie Sie die Ergebnisse interpretieren. Allein das Erhalten einer statistisch signifikanten Beziehung für die meisten Variablen sagt möglicherweise nichts darüber aus, wie realistisch Ihre Ergebnisse sind.

Wenn Ihnen diese Ergebnisse (basierend auf Ihren Vorkenntnissen) verdächtig erscheinen, können Sie einige Diagnosetests für die Regression durchführen. Möglicherweise liegt ein Verstoß gegen Modellannahmen und andere Probleme (z. B. Ausreißer) vor. Tatsächlich ist es immer hilfreich, diese Tests durchzuführen, um Ihr Regressionsmodell zu bewerten. Da Sie verwenden R, können Sie das carPaket überprüfen , das eine Reihe von Funktionen für Diagnosetests bietet. Hier finden Sie die Kursfolien zur Regressionsdiagnostik eines der Autoren (und des Erstellers) des carPakets, John Fox. Sie können auch sein Buch zum Thema (1991) lesen. Kabacoff (2011) diskutierte auch die Regressionsdiagnostik und die Verwendung von RFunktionen (einschließlich der voncarPaket) und interpretieren die Ergebnisse (S.188-200). Ich denke, nach diesen Diagnosetests ist es besser, die Ergebnisse und ihre Verwendbarkeit zu bewerten.


Fox, J. (1991). Regressionsdiagnose . Newbury Park, London, Neu-Delhi: Sage Publications.

Kabacoff, RI (2011). R in Aktion: Datenanalyse und Grafiken mit R . Shelter Island: Manning.

Ebenfalls:

Fox, J. & Weisberg, S. (2011). Diagnose von Problemen in linearen und verallgemeinerten linearen Modellen. In An R Companion to Applied Regression (2. Aufl., S. 285–328). Los Angeles: Sage Publications.

TEG - Monica wieder einsetzen
quelle