Ich möchte den Kraftstoffverbrauch bei Hubraum, Kraftstoffart, 2- oder 4-Rad-Antrieb, Leistung, manuellem oder automatischem Getriebe und der Anzahl der Geschwindigkeiten senken. Mein Datensatz ( Link ) enthält Fahrzeuge von 2012-2014.
fuelEconomy
in Meilen pro GalloneengineDisplacement
: Motorgröße in LiternfuelStd
: 1 für Gas 0 für DieselwheelDriveStd
: 1 für Allradantrieb, 0 für Allradantriebhp
: PferdestärkentransStd
: 1 für Automatik, 0 für ManuelltransSpeed
: Anzahl der Geschwindigkeiten
R-Code:
reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp +
transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd +
hp + transStd + transSpeed, data = a)
Residuals:
Min 1Q Median 3Q Max
-10.2765 -2.3142 -0.0655 2.0944 15.8637
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48.147115 0.542910 88.683 < 2e-16 ***
engineDisplacement -3.673549 0.091272 -40.248 < 2e-16 ***
fuelStd -6.613112 0.403989 -16.370 < 2e-16 ***
wheelDriveStd 2.778134 0.137775 20.164 < 2e-16 ***
hp -0.005884 0.001008 -5.840 5.86e-09 ***
transStd -0.351853 0.157570 -2.233 0.0256 *
transSpeed -0.080365 0.052538 -1.530 0.1262
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.282 on 2648 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.7802, Adjusted R-squared: 0.7797
F-statistic: 1566 on 6 and 2648 DF, p-value: < 2.2e-16
- Sind die Ergebnisse realistisch oder mache ich hier etwas falsch, da die meisten Variablen statistisch hoch signifikant sind?
- Sind andere Modelle für diesen Zweck besser geeignet?
- Ist ein solches Ergebnis für die Interpretation verwendbar?
Ich weiß sehr wenig über die Mechanik und Physik, aber das erste, was ich betrachten würde, ist die Regressionsdiagnostik, insbesondere die Diagramme von Residuen gegen angepasste Werte, für die wir uns wünschen, dass es kein Gesamtmuster gibt.
Sie haben ein lineares Modell angepasst, sodass jede Kovariate eine lineare Assoziation mit hat
fuelEconomy
. Wird dies durch die zugrunde liegende mechanische und physikalische Theorie unterstützt? Könnte es nichtlineare Assoziationen geben? In diesem Fall können Sie Modelle mit nichtlinearen Begriffen in Betracht ziehen, bestimmte Variablen transformieren oder ein additives Modell verwenden. Auch wenn die Assoziationen innerhalb Ihres tatsächlichen Datensatzes plausibel linear sind, sollten Sie die Ergebnisse nicht über Ihre Datengrenzen hinaus extrapolieren.quelle
Eine Streudiagrammmatrix mit Lösskurven und Korrelationswerten (Absolutwerten) kann ein guter Ausgangspunkt sein:
Wir können hier bemerken , die möglicherweise quadratische Beziehung
fuelEconomy
aufgetragen gegen beidelineDisplacement
undhp
, die auch in einem Nike - Swoosh Aussehen widerspiegelt in der Residuendiagramm . Es wäre interessant, das Vorhandensein einer Wechselwirkung zwischen diesen Begriffen zu untersuchen.Dieser Mangel an Linearität ist auch offensichtlich, wenn wir eine lineare Regression
fuelEconomy
gegen durchführenlinearDisplacement
(ähnliche Ergebnisse können mit erzielt werdenhp
). Beachten Sie die rote Linie ...Dieser Effekt kann teilweise korrigiert werden, wodurch das Modell komplexer wird und ein quadratisches Modell eingeführt wird:
Die dichotome Natur
fuelStd
und derwheeldriveStd
einfache Verschieben des Mittelwerts der vorhergesagten Werte sind in der Tat Dummy-codierte Variablen oder Faktoren. Dies ist auch auf dem anfänglichen Streudiagramm ersichtlich, kann jedoch mit Box-Diagrammen weiter visualisiert werden:Ein letzter Punkt in der Diagnose ist das Vorhandensein von Punkten mit hohem Hebel , die es wert sind, untersucht zu werden:
Was ist zu schließen? Nichts kategorisches. Vielleicht nur, um die Wichtigkeit des Zeichnens für das Verständnis des Datensatzes und jedes ihm auferlegten Modells hervorzuheben.
quelle
Die Antwort auf Ihre erste Frage hängt von Ihrem theoretischen Rahmen ab, davon, wie Sie die Hypothesen über die Beziehung zwischen abhängigen und unabhängigen Variablen aufstellen und wie Sie die Ergebnisse interpretieren. Allein das Erhalten einer statistisch signifikanten Beziehung für die meisten Variablen sagt möglicherweise nichts darüber aus, wie realistisch Ihre Ergebnisse sind.
Wenn Ihnen diese Ergebnisse (basierend auf Ihren Vorkenntnissen) verdächtig erscheinen, können Sie einige Diagnosetests für die Regression durchführen. Möglicherweise liegt ein Verstoß gegen Modellannahmen und andere Probleme (z. B. Ausreißer) vor. Tatsächlich ist es immer hilfreich, diese Tests durchzuführen, um Ihr Regressionsmodell zu bewerten. Da Sie verwenden
R
, können Sie dascar
Paket überprüfen , das eine Reihe von Funktionen für Diagnosetests bietet. Hier finden Sie die Kursfolien zur Regressionsdiagnostik eines der Autoren (und des Erstellers) descar
Pakets, John Fox. Sie können auch sein Buch zum Thema (1991) lesen. Kabacoff (2011) diskutierte auch die Regressionsdiagnostik und die Verwendung vonR
Funktionen (einschließlich der voncar
Paket) und interpretieren die Ergebnisse (S.188-200). Ich denke, nach diesen Diagnosetests ist es besser, die Ergebnisse und ihre Verwendbarkeit zu bewerten.Fox, J. (1991). Regressionsdiagnose . Newbury Park, London, Neu-Delhi: Sage Publications.
Kabacoff, RI (2011). R in Aktion: Datenanalyse und Grafiken mit R . Shelter Island: Manning.
Ebenfalls:
Fox, J. & Weisberg, S. (2011). Diagnose von Problemen in linearen und verallgemeinerten linearen Modellen. In An R Companion to Applied Regression (2. Aufl., S. 285–328). Los Angeles: Sage Publications.
quelle