Wie kann man und in die Regression einbeziehen und ob man sie zentriert?

9

Ich möchte den Term und sein Quadrat (Prädiktorvariablen) in eine Regression einbeziehen, da ich davon ausgehe, dass niedrige Werte von einen positiven Effekt auf die abhängige Variable und hohe Werte einen negativen Effekt haben. Das sollte den Effekt der höheren Werte erfassen. Ich erwarte daher, dass der Koeffizient von positiv und der Koeffizient von negativ sein wird. Neben füge ich auch andere Prädiktorvariablen hinzu.x 2 x x 2 x x 2 xxx2xx2xx2x

Ich habe in einigen Beiträgen hier gelesen, dass es in diesem Fall eine gute Idee ist, die Variablen zu zentrieren, um Multikollinearität zu vermeiden. Wann sollten Sie bei der Durchführung einer multiplen Regression Ihre Prädiktorvariablen zentrieren und wann sollten Sie sie standardisieren?

  1. Sollte ich beide Variablen separat zentrieren (im Mittelwert) oder sollte ich nur und dann das Quadrat nehmen oder sollte ich nur und das ursprüngliche einschließen ?x 2 xxx2x

  2. Ist es ein Problem, wenn eine Zählvariable ist?x

Um zu vermeiden, dass eine Zählvariable ist, habe ich darüber nachgedacht, es durch eine theoretisch definierte Fläche zu teilen, zum Beispiel 5 Quadratkilometer. Dies sollte einer Punktdichteberechnung etwas ähnlich sein.x

Ich befürchte jedoch, dass in dieser Situation meine anfängliche Annahme über das Vorzeichen der Koeffizienten nicht mehr gelten würde, wie wenn und x² = 4x=2x²=4

x=2/5 km2 = 0.4 km2

aber x2 wäre dann kleiner, weil x2=(2/5)2=0.16 .

Peter
quelle
1
Ihre Regressionssoftware kümmert sich automatisch um numerische Probleme. Insbesondere ist es sehr wahrscheinlich, dass Ihre Daten intern zentriert und standardisiert werden. Wie Sie Ihre Fragen zur Zentrierung beantworten können, hängt davon ab, wie Sie die Koeffizienten interpretieren möchten.
whuber

Antworten:

4

Ihre Frage besteht in der Tat aus mehreren Unterfragen, die ich nach bestem Wissen und Gewissen beantworten möchte.

  • Wie kann man die Abhängigkeit von niedrigen und hohen Werten von einer Regression unterscheiden?

Wenn man und ist dies eine Möglichkeit, aber sind Sie sicher, dass Ihr Test schlüssig ist? Werden Sie in der Lage sein, für alle möglichen Ergebnisse der Regression etwas Nützliches zu schließen? Ich denke, dass es hilfreich sein kann, die Frage im Voraus klar zu stellen, und ähnliche und verwandte Fragen zu stellen, kann ebenfalls hilfreich sein. Sie können beispielsweise einen Schwellenwert von berücksichtigen, für den die Regressionssteigungen unterschiedlich sind. Dies kann mithilfe von Moderatorvariablen erfolgen . Wenn die verschiedenen Steigungen (unter Auferlegung des gleichen Abschnitts) kompatibel sind, haben Sie keinen Unterschied, andernfalls haben Sie sich ein klares Argument für ihren Unterschied geliefert.x 2 xxx2x

  • Wann sollten Sie zentrieren und standardisieren?

Ich denke, diese Frage sollte nicht mit der ersten Frage und dem ersten Test gemischt werden, und ich befürchte, dass eine vorherige Zentrierung um oder die Ergebnisse beeinflussen könnte. Ich würde raten, zumindest in einer ersten Phase nicht zu zentrieren. Denken Sie daran, dass Sie wahrscheinlich nicht an Multikollinearität sterben werden. Viele Autoren argumentieren, dass dies nur der Arbeit mit einer kleineren Stichprobengröße entspricht ( hier und hier ).x 2xx2

  • Ändert die Transformation der diskreten Zählvariablen in eine (kontinuierliche) Gleitkommavariable die Interpretation der Ergebnisse?

Ja, aber das hängt stark von den ersten beiden Punkten ab. Ich würde Ihnen daher empfehlen, jeweils eine Sache anzusprechen. Ich sehe keinen Grund, warum die Regression ohne diese Transformation nicht funktionieren würde, daher würde ich Ihnen raten, sie vorerst zu ignorieren. Beachten Sie auch, dass Sie durch Teilen durch ein gemeinsames Element die Skala ändern, bei der , aber es gibt völlig andere Sichtweisen, wie ich oben geschrieben habe, in denen dieser Schwellenwert expliziter betrachtet wird.x2=x

pedrofigueira
quelle
Vielen Dank für Ihre Antwort, insbesondere für die Links !!!
Peter
Es war mir eine Freude zu helfen. =)
pedrofigueira
4

Im Allgemeinen könnte die Zentrierung helfen, die Multikollinearität zu verringern, aber "Sie werden wahrscheinlich nicht an Multikollinearität sterben" (siehe die Antwort von predrofigueira).

Am wichtigsten ist, dass häufig eine Zentrierung erforderlich ist, um den Abschnitt sinnvoll zu gestalten. In dem einfachen Modell ist der Achsenabschnitt als das erwartete Ergebnis für . Wenn ein Wert von Null nicht aussagekräftig ist, ist dies auch nicht der Fall. Es ist oft nützlich, die Variable um ihren Mittelwert zu zentrieren. In diesem Fall hat der Prädiktor die Form und der ist das erwartete Ergebnis für ein Subjekt, dessen Wert auf gleich dem Mittelwert .x = 0 x x ( x i - ˉ x ) α x i ˉ xyi=α+βxi+εx=0xx(xix¯)αxix¯

In solchen Fällen Sie müssen Zentrieren und dann Platz. Sie können und getrennt , da Sie das Ergebnis auf eine "neue" Variable müssen Sie diese neue Variable . Was könnte Zentrierung bedeuten?x x 2 ( x i - ˉ x ) x 2xxx2(xix¯)x2

Sie können eine Zählvariable zentrieren, wenn ihr Mittelwert sinnvoll ist , aber Sie können sie einfach skalieren . Wenn beispielsweise und "2" eine Basislinie sein könnten, können Sie 2 subtrahieren: . Der Achsenabschnitt wird zum erwarteten Ergebnis für ein Subjekt, dessen Wert auf gleich "2" ist, einem Referenzwert.x=1,2,3,4,5(xi2)=1,0,1,2,3xi

Was das Teilen betrifft, kein Problem: Ihre geschätzten Koeffizienten wären größer! Gelman und Hill , §4.1, geben ein Beispiel:

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

Ein Zoll ist Millimeter, also ist . Ein Zoll ist Emiles, so ist . Diese drei Gleichungen sind jedoch völlig gleichwertig.25.4511300/25.41.6e5810000001300/1.6e5

Sergio
quelle
verwandt .
Henrik
Danke für deine Antwort Sergio. Es hat mir wirklich geholfen. Leider kann ich nur eine Antwort als meine akzeptierte Antwort markieren.
Peter
Bitte. Und keine Sorge ;-)
Sergio
1

Ich gehe davon aus, dass niedrige Werte von x sich positiv auf die abhängige Variable auswirken und hohe Werte sich negativ auswirken.

Während ich die Behandlung der Zentrierung und Interpretation von Koeffizienten durch andere schätze, ist das, was Sie hier beschrieben haben, einfach ein linearer Effekt. Mit anderen Worten, was Sie beschrieben haben, bedeutet nicht, dass das Quadrat von x getestet werden muss .

rolando2
quelle
Wenn , ist meiner Ansicht nach der (teilweise) Effekt von auf (oder besser auf ) . Solche Effekte sind konstant, sie hängen nicht von der Ebene von . Wenn das Modell , dann ist die Wirkung des Teils ist und hängt von der Höhe der . Dies kann auch bei anderen Modellen der Fall sein, z. B. bei linearen Spline-Modellen, jedoch nicht bei einem einfachen linearen Modell (1. Grad). Liege ich falsch? y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xix 2 β 2 + 2 β 3 x 2 x 2y=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
Sergio
@ Rolando2: Ich bin nicht sicher, ob wir über die Samte-Sache sprechen. Wenn ich nur die reguläre Prädiktorvariable einbeziehe, erhalte ich einen geschätzten Koeffizienten für diesen Prädiktor, der entweder positiv oder negativ ist. Basierend auf dem Koeffizienten kann ich sagen, dass durch Hinzufügen einer Einheit zu x y um einen bestimmten Betrag zunimmt oder abnimmt. Aber ich kann auf diese Weise nicht herausfinden, ob kleine Werte tatsächlich zu einer Zunahme von y führen, während höhere Werte (ab einem bestimmten unbekannten Punkt) zu einer Abnahme von y führen.
Peter
@Peter - Ich verstehe und schlage vor, dass Sie den Satz "Ich nehme an" Ihrer Frage so bearbeiten, dass er lautet: "Ich gehe davon aus, dass in einem Bereich von x höhere Werte von x einen positiven Effekt auf die abhängige Variable haben, während in einem anderen Bereich höhere Werte wirken sich negativ aus. "
Rolando2