So erstellen Sie ein Regressionsmodell, wenn der am stärksten assoziierte Prädiktor binär ist

11

Ich habe Daten nämlich 365 Beobachtung von drei Variablen gesetzt enthält pm, tempund rain. Jetzt möchte ich das Verhalten pmals Reaktion auf Änderungen in anderen zwei Variablen überprüfen . Meine Variablen sind:

  • pm10 = Antwort (abhängig)
  • temp = Prädiktor (unabhängig)
  • rain = Prädiktor (unabhängig)

Das Folgende ist die Korrelationsmatrix für meine Daten:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

Das Problem ist, als ich die Konstruktion von Regressionsmodellen studierte, wurde geschrieben, dass die additive Methode darin besteht, mit der Variablen zu beginnen, die am stärksten mit der Antwortvariablen zusammenhängt. In meinem Datensatz rainist pm(im Vergleich zu temp) stark korreliert , aber gleichzeitig ist es eine Dummy-Variable (Regen = 1, kein Regen = 0), sodass ich jetzt eine Ahnung habe, wo ich anfangen soll. Ich habe zwei Bilder mit der Frage angehängt: Das erste ist ein Streudiagramm von Daten, und das zweite Bild ist ein Streudiagramm von pm10vs. rain, ich kann auch das Streudiagramm von pm10vs. nicht interpretieren rain. Kann mir jemand helfen, wie ich anfangen soll?

Dies ist ein Streudiagramm meiner Daten

Streudiagramm von pm10 gegen Regen

Syed Asif Ali Shah
quelle
3
Dies ist eine durchaus realisierbare Frage, IMO, auch wenn sie von einem Missverständnis ausgeht.
Gung - Reinstate Monica
yixi1,xi2,,xip|rjk|>0,8

Antworten:

17

Viele Leute glauben, dass Sie eine Strategie anwenden sollten, wie mit der am stärksten assoziierten Variablen zu beginnen und dann nacheinander weitere Variablen hinzuzufügen, bis eine nicht mehr signifikant ist. Es gibt jedoch keine Logik, die diesen Ansatz zwingt. Darüber hinaus ist dies eine Art "gierige" Variablenauswahl- / Suchstrategie (vgl. Meine Antwort hier: Algorithmen zur automatischen Modellauswahl ). Sie müssen dies nicht tun und sollten es auch nicht tun . Wenn Sie die Beziehung zwischen pmund tempund wissen möchtenrainPassen Sie einfach ein multiples Regressionsmodell mit allen drei Variablen an. Sie müssen das Modell noch bewerten, um festzustellen, ob es angemessen ist und die Annahmen erfüllt sind, aber das war's. Wenn Sie eine A-priori-Hypothese testen möchten, können Sie dies mit dem Modell tun. Wenn Sie die Vorhersagegenauigkeit des Modells außerhalb der Stichprobe bewerten möchten, können Sie dies mit einer Kreuzvalidierung tun.

Sie müssen sich auch nicht wirklich um Multikollinearität kümmern. Die Korrelation zwischen tempund rainwird wie 0.044in Ihrer Korrelationsmatrix aufgeführt. Das ist eine sehr geringe Korrelation und sollte keine Probleme verursachen.

gung - Monica wieder einsetzen
quelle
1
Vielen Dank für Ihre freundlichen Vorschläge. Ich bin neu auf dieser Seite und weiß nicht, wie man sie benutzt. Können Sie bitte einige zusätzliche Vorschläge oder Lernmaterialien machen
Syed Asif Ali Shah
1
@SyedAsifAliShah, abgesehen davon, dass Englisch nicht Ihre Muttersprache zu sein scheint, sehe ich keine Probleme mit der Nutzung der Website. In Bezug auf Lernmaterialien können Sie sich dies oder das ansehen oder einfach unsere Themen mit dem Referenz- Tag durchsuchen .
Gung - Reinstate Monica
sollte ich ein lineares Modell oder GLM für meine Daten versuchen?
Syed Asif Ali Shah
1
@SyedAsifAliShah, vermutlich ist ein lineares Modell für Ihre Daten in Ordnung.
Gung - Reinstate Monica
Bruder, ich brauche deine Hilfe
Syed Asif Ali Shah
10

Während dies Ihren bereits gesammelten Datensatz nicht direkt anspricht, können Sie beim nächsten Sammeln solcher Daten auch versuchen, "Regen" nicht als Binärdatei aufzuzeichnen. Ihre Daten wären wahrscheinlich informativer, wenn Sie stattdessen die Regenrate (cm / Stunde) gemessen hätten, wodurch Sie eine Variable erhalten würden, die kontinuierlich (bis zu Ihrer Messgenauigkeit) von 0 ... max_rainfall verteilt wird.

Auf diese Weise können Sie nicht nur "regnet es" mit den anderen Variablen korrelieren, sondern auch "wie viel regnet es".

JKreft
quelle
Hallo Bruder, ich habe das Gleiche gemäß Ihrem Vorschlag getan. Ich habe die vollständigen Daten des Regen- und Konstruktionsmodells gesammelt
Syed Asif Ali Shah
kann ich bitte um deine email bitten ??? Ich möchte nur ein paar Fragen stellen
Syed Asif Ali Shah
Wenn Sie weitere Fragen zum Einrichten Ihres Modells haben, ist möglicherweise eine neue StackExchange-Frage der richtige Weg. Auf diese Weise können Sie Feedback von mehr Leuten erhalten, von denen viele erfahrener sind als ich.
JKreft