Ich möchte den Term und sein Quadrat (Prädiktorvariablen) in eine Regression einbeziehen, da ich davon ausgehe, dass niedrige Werte von einen positiven Effekt auf die abhängige Variable und hohe Werte einen negativen Effekt haben. Das sollte den Effekt der höheren Werte erfassen. Ich erwarte daher, dass der Koeffizient von positiv und der Koeffizient von negativ sein wird. Neben füge ich auch andere Prädiktorvariablen hinzu.x 2 x x 2 x x 2 x
Ich habe in einigen Beiträgen hier gelesen, dass es in diesem Fall eine gute Idee ist, die Variablen zu zentrieren, um Multikollinearität zu vermeiden. Wann sollten Sie bei der Durchführung einer multiplen Regression Ihre Prädiktorvariablen zentrieren und wann sollten Sie sie standardisieren?
Sollte ich beide Variablen separat zentrieren (im Mittelwert) oder sollte ich nur und dann das Quadrat nehmen oder sollte ich nur und das ursprüngliche einschließen ?x 2 x
Ist es ein Problem, wenn eine Zählvariable ist?
Um zu vermeiden, dass eine Zählvariable ist, habe ich darüber nachgedacht, es durch eine theoretisch definierte Fläche zu teilen, zum Beispiel 5 Quadratkilometer. Dies sollte einer Punktdichteberechnung etwas ähnlich sein.
Ich befürchte jedoch, dass in dieser Situation meine anfängliche Annahme über das Vorzeichen der Koeffizienten nicht mehr gelten würde, wie wenn und x² = 4
=
aber wäre dann kleiner, weil .
Antworten:
Ihre Frage besteht in der Tat aus mehreren Unterfragen, die ich nach bestem Wissen und Gewissen beantworten möchte.
Wenn man und ist dies eine Möglichkeit, aber sind Sie sicher, dass Ihr Test schlüssig ist? Werden Sie in der Lage sein, für alle möglichen Ergebnisse der Regression etwas Nützliches zu schließen? Ich denke, dass es hilfreich sein kann, die Frage im Voraus klar zu stellen, und ähnliche und verwandte Fragen zu stellen, kann ebenfalls hilfreich sein. Sie können beispielsweise einen Schwellenwert von berücksichtigen, für den die Regressionssteigungen unterschiedlich sind. Dies kann mithilfe von Moderatorvariablen erfolgen . Wenn die verschiedenen Steigungen (unter Auferlegung des gleichen Abschnitts) kompatibel sind, haben Sie keinen Unterschied, andernfalls haben Sie sich ein klares Argument für ihren Unterschied geliefert.x 2 xx x2 x
Ich denke, diese Frage sollte nicht mit der ersten Frage und dem ersten Test gemischt werden, und ich befürchte, dass eine vorherige Zentrierung um oder die Ergebnisse beeinflussen könnte. Ich würde raten, zumindest in einer ersten Phase nicht zu zentrieren. Denken Sie daran, dass Sie wahrscheinlich nicht an Multikollinearität sterben werden. Viele Autoren argumentieren, dass dies nur der Arbeit mit einer kleineren Stichprobengröße entspricht ( hier und hier ).x 2x x2
Ja, aber das hängt stark von den ersten beiden Punkten ab. Ich würde Ihnen daher empfehlen, jeweils eine Sache anzusprechen. Ich sehe keinen Grund, warum die Regression ohne diese Transformation nicht funktionieren würde, daher würde ich Ihnen raten, sie vorerst zu ignorieren. Beachten Sie auch, dass Sie durch Teilen durch ein gemeinsames Element die Skala ändern, bei der , aber es gibt völlig andere Sichtweisen, wie ich oben geschrieben habe, in denen dieser Schwellenwert expliziter betrachtet wird.x2=x
quelle
Im Allgemeinen könnte die Zentrierung helfen, die Multikollinearität zu verringern, aber "Sie werden wahrscheinlich nicht an Multikollinearität sterben" (siehe die Antwort von predrofigueira).
Am wichtigsten ist, dass häufig eine Zentrierung erforderlich ist, um den Abschnitt sinnvoll zu gestalten. In dem einfachen Modell ist der Achsenabschnitt als das erwartete Ergebnis für . Wenn ein Wert von Null nicht aussagekräftig ist, ist dies auch nicht der Fall. Es ist oft nützlich, die Variable um ihren Mittelwert zu zentrieren. In diesem Fall hat der Prädiktor die Form und der ist das erwartete Ergebnis für ein Subjekt, dessen Wert auf gleich dem Mittelwert .x = 0 x x ( x i - ˉ x ) α x i ˉ xyi=α+βxi+ε x=0 x x (xi−x¯) α xi x¯
In solchen Fällen Sie müssen Zentrieren und dann Platz. Sie können und getrennt , da Sie das Ergebnis auf eine "neue" Variable müssen Sie diese neue Variable . Was könnte Zentrierung bedeuten?x x 2 ( x i - ˉ x ) x 2x x x2 (xi−x¯) x2
Sie können eine Zählvariable zentrieren, wenn ihr Mittelwert sinnvoll ist , aber Sie können sie einfach skalieren . Wenn beispielsweise und "2" eine Basislinie sein könnten, können Sie 2 subtrahieren: . Der Achsenabschnitt wird zum erwarteten Ergebnis für ein Subjekt, dessen Wert auf gleich "2" ist, einem Referenzwert.x=1,2,3,4,5 (xi−2)=−1,0,1,2,3 xi
Was das Teilen betrifft, kein Problem: Ihre geschätzten Koeffizienten wären größer! Gelman und Hill , §4.1, geben ein Beispiel:
Ein Zoll ist Millimeter, also ist . Ein Zoll ist Emiles, so ist . Diese drei Gleichungen sind jedoch völlig gleichwertig.25.4 51 1300/25.4 1.6e−5 81000000 1300/1.6e−5
quelle
Während ich die Behandlung der Zentrierung und Interpretation von Koeffizienten durch andere schätze, ist das, was Sie hier beschrieben haben, einfach ein linearer Effekt. Mit anderen Worten, was Sie beschrieben haben, bedeutet nicht, dass das Quadrat von x getestet werden muss .
quelle