Angenommen, ich habe eine Reihe von Städten mit unterschiedlichen Bevölkerungsgrößen und wollte wissen, ob es eine positive lineare Beziehung zwischen der Anzahl der Spirituosengeschäfte in einer Stadt und der Anzahl der DUIs gibt. Wo ich anhand eines t-Tests des geschätzten Regressionskoeffizienten feststelle, ob diese Beziehung signifikant ist oder nicht.
Jetzt klar der Pop. Die Größe einer Stadt wird sowohl mit der Anzahl der DUIs als auch mit der Anzahl der Spirituosengeschäfte positiv korreliert. Wenn ich also eine einfache lineare Regression nur für Liquor-Speicher durchführe und sehe, ob ihr Regressionskoeffizient statistisch signifikant ist, werde ich wahrscheinlich auf ein Problem der Multikollinearität stoßen und die Auswirkung von Liquor-Speichern auf DUIs überschätzen.
Welche der beiden Methoden sollte ich verwenden, um dies zu korrigieren?
Ich sollte die Anzahl der Spirituosengeschäfte in der Stadt durch die Bevölkerung teilen, um einen Pro-Kopf-Wert für Spirituosengeschäfte zu erhalten, und mich dann darauf zurückbilden.
Ich sollte mich sowohl auf die Spirituosenlager als auch auf die Größe zurückbilden und dann prüfen, ob der Koeffizient der Spirituosenlager bei der Kontrolle der Größe signifikant ist.
Eine andere Methode?
Ich kann mich ehrlich gesagt nicht entscheiden, was vernünftiger erscheint. Ich schwanke zwischen ihnen, je nachdem, an welche ich denke, kann ich mich davon überzeugen, dass das der richtige Weg ist.
Einerseits scheint die Pro-Kopf-Lagerung von Spirituosen die richtige Variable zu sein, da DUIs von Einzelpersonen festgelegt werden, aber das scheint statistisch nicht sehr streng zu sein. Andererseits scheint die Größenkontrolle statistisch streng, aber eher indirekt zu sein. Wenn ich nach der Berechnung der Pro-Kopf-Variablen für Spirituosenspeicher neu skaliere, erhalte ich außerdem sehr ähnliche Regressionskoeffizienten zwischen den beiden Methoden, aber Methode 1 erzeugt einen kleineren p-Wert.
Antworten:
Ich würde den "DUI pro Kopf" (Y) auf "Spirituosengeschäfte pro Kopf" (X) und "Bevölkerungsgröße" (Z) zurückführen. Auf diese Weise spiegelt Ihr Y die Neigung der Stadtbewohner zum betrunkenen Fahren wider, während X das Bevölkerungsmerkmal einer bestimmten Stadt ist. Z ist eine Steuervariable für den Fall, dass es einen Größeneffekt auf Y gibt. Ich glaube nicht, dass in diesem Setup ein Multikollinearitätsproblem auftreten wird.
Dieses Setup ist interessanter als Ihr Modell 1. Hier ist Ihre Basis die Annahme, dass die Anzahl der DUIs proportional zur Bevölkerung ist, während die Nichtlinearität würde, z. B. sind Menschen in größeren Städten anfälliger für betrunkenes Fahren. Auch X spiegelt das kulturelle und rechtliche Umfeld direkt wider, das bereits an die Größe angepasst wurde. Möglicherweise erhalten Sie in Sough ungefähr das gleiche X für Städte unterschiedlicher Größe. Auf diese Weise können Sie auch andere Steuervariablen wie Rot / Blau, Küste / Kontinental usw. einführen.βZ.
quelle
Wenn Sie Ihr Modell mit gewöhnlichen kleinsten Quadraten schätzen, ist Ihre zweite Regression ziemlich problematisch.
Vielleicht möchten Sie darüber nachdenken, wie sich die Varianz Ihres Fehlerterms mit der Stadtgröße ändert.
Die Regression (2) entspricht Ihrer Regression (1), bei der die Beobachtungen mit dem Quadrat der Stadtbevölkerung gewichtet werden :
Dies sind gewichtete kleinste Quadrate , und die Gewichte, die Sie anwenden, sind das Quadrat der Bevölkerung der Stadt. Das ist viel Gewicht, das Sie den größten Städten geben?!
Wenn Sie eine Beobachtung für jede Person in einer Stadt hatten und jeder Person den Durchschnittswert für die Stadt zugewiesen haben, entspricht dies einer Regression, bei der Sie jede Stadt nach Bevölkerung (nicht nach Quadrat der Bevölkerung) gewichten.
quelle
Ich habe einige Experimente mit simulierten Daten durchgeführt, um herauszufinden, welche Methode am besten funktioniert. Bitte lesen Sie meine Ergebnisse unten.
Schauen wir uns zwei verschiedene Szenarien an: Erstens, wo es keine direkte Beziehung zwischen DUI & Liquor Stores gibt, und zweitens, wo wir eine direkte Beziehung haben. Untersuchen Sie dann jede der Methoden, um festzustellen, welche Methode am besten funktioniert.
Fall 1: Keine direkte Beziehung, aber beide hängen mit der Bevölkerung zusammen
Nachdem die Daten simuliert wurden, können Sie sehen, wie sich die einzelnen Methoden entwickeln.
Nbr_Liquor_Stores ist erwartungsgemäß von hoher Bedeutung. Obwohl die Beziehung indirekt ist.
Nbr_Liquor_Stores hat keine Bedeutung. Scheint zu funktionieren, aber lassen Sie uns noch nicht zu Schlussfolgerungen springen.
Nbr_Liquor_Stores nicht signifikant, p-Wert liegt auch ziemlich nahe an Methode 1.
(Nbr_Liquor_Stores / popln) von hoher Bedeutung! Ich habe das nicht erwartet, vielleicht ist diese Methode nicht die beste für Ihre Problemstellung.
Fall 2: Direkte Beziehung zu Population & Nbr_Liquor_Stores
Sehen wir uns die Leistung der einzelnen Methoden in diesem Szenario an.
Erwartet, aber keine großartige Methode, um kausale Schlussfolgerungen zu ziehen.
Das ist eine Überraschung für mich. Ich hatte erwartet, dass diese Methode die Beziehung erfasst, aber sie nimmt sie nicht auf. Diese Methode schlägt in diesem Szenario also fehl!
Nbr_Liquor_Stores ist signifikant, der p-Wert ist sehr sinnvoll. Ein klarer Gewinner für mich.
TLDR; Methode 2 erzeugt die genauesten p-Werte in verschiedenen Szenarien.
quelle