Ich habe Daten nämlich 365 Beobachtung von drei Variablen gesetzt enthält pm
, temp
und rain
. Jetzt möchte ich das Verhalten pm
als Reaktion auf Änderungen in anderen zwei Variablen überprüfen . Meine Variablen sind:
pm10
= Antwort (abhängig)temp
= Prädiktor (unabhängig)rain
= Prädiktor (unabhängig)
Das Folgende ist die Korrelationsmatrix für meine Daten:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Das Problem ist, als ich die Konstruktion von Regressionsmodellen studierte, wurde geschrieben, dass die additive Methode darin besteht, mit der Variablen zu beginnen, die am stärksten mit der Antwortvariablen zusammenhängt. In meinem Datensatz rain
ist pm
(im Vergleich zu temp
) stark korreliert , aber gleichzeitig ist es eine Dummy-Variable (Regen = 1, kein Regen = 0), sodass ich jetzt eine Ahnung habe, wo ich anfangen soll. Ich habe zwei Bilder mit der Frage angehängt: Das erste ist ein Streudiagramm von Daten, und das zweite Bild ist ein Streudiagramm von pm10
vs. rain
, ich kann auch das Streudiagramm von pm10
vs. nicht interpretieren rain
. Kann mir jemand helfen, wie ich anfangen soll?
quelle
Antworten:
Viele Leute glauben, dass Sie eine Strategie anwenden sollten, wie mit der am stärksten assoziierten Variablen zu beginnen und dann nacheinander weitere Variablen hinzuzufügen, bis eine nicht mehr signifikant ist. Es gibt jedoch keine Logik, die diesen Ansatz zwingt. Darüber hinaus ist dies eine Art "gierige" Variablenauswahl- / Suchstrategie (vgl. Meine Antwort hier: Algorithmen zur automatischen Modellauswahl ). Sie müssen dies nicht tun und sollten es auch nicht tun . Wenn Sie die Beziehung zwischen
pm
undtemp
und wissen möchtenrain
Passen Sie einfach ein multiples Regressionsmodell mit allen drei Variablen an. Sie müssen das Modell noch bewerten, um festzustellen, ob es angemessen ist und die Annahmen erfüllt sind, aber das war's. Wenn Sie eine A-priori-Hypothese testen möchten, können Sie dies mit dem Modell tun. Wenn Sie die Vorhersagegenauigkeit des Modells außerhalb der Stichprobe bewerten möchten, können Sie dies mit einer Kreuzvalidierung tun.Sie müssen sich auch nicht wirklich um Multikollinearität kümmern. Die Korrelation zwischen
temp
undrain
wird wie0.044
in Ihrer Korrelationsmatrix aufgeführt. Das ist eine sehr geringe Korrelation und sollte keine Probleme verursachen.quelle
Während dies Ihren bereits gesammelten Datensatz nicht direkt anspricht, können Sie beim nächsten Sammeln solcher Daten auch versuchen, "Regen" nicht als Binärdatei aufzuzeichnen. Ihre Daten wären wahrscheinlich informativer, wenn Sie stattdessen die Regenrate (cm / Stunde) gemessen hätten, wodurch Sie eine Variable erhalten würden, die kontinuierlich (bis zu Ihrer Messgenauigkeit) von 0 ... max_rainfall verteilt wird.
Auf diese Weise können Sie nicht nur "regnet es" mit den anderen Variablen korrelieren, sondern auch "wie viel regnet es".
quelle