Warum schließt ein

10

Bei der Ermittlung von Statistiken mit SPSS 4th Edition von Andy Field wurde empfohlen, den Interaktionsterm zwischen der unabhängigen Variablen aufzunehmenx und seine entsprechende natürliche Logarithmus-Transformation ln(x)Variable, um zu überprüfen, ob die Linearitätsannahme verletzt wurde. Welche statistische Theorie steckt dahinter?

Dies ist ein Zitat aus dem Buch:

Diese Annahme kann getestet werden, indem untersucht wird, ob der Interaktionsterm zwischen dem Prädiktor und seiner logarithmischen Transformation signifikant ist (Hosmer & Lemeshow, 1989).

Ich habe auch kürzlich herausgefunden, dass diese Transformation als Box-Tidwell-Transformation bezeichnet wird.

Tatami
quelle
2
Ich erinnere mich an dieses Buch, das zweifelhafte Ratschläge aus einer anderen Frage hier gibt: stats.stackexchange.com/questions/157217/…. Dies schließt x ln (x) ebenfalls als zweifelhaft ein.
Matthew Drury
4
tatami Es mag einen guten Grund dafür geben, aber der Kontext wird wahrscheinlich helfen, es schneller zu finden. Auf welcher Grundlage schlug Field vor, es sei eine gute Idee? Hat er Referenzen angeboten? Können Sie zitieren, was das Buch sagt?
Glen_b -State Monica
1
Ein besserer Weg (bei genügend Daten) könnte darin bestehen, ein logistisches GAM (generalisiertes additives Modell) zu verwenden und eine Spline-Anpassung von x einzuschließen.
kjetil b halvorsen
@Glen_b Ich habe ein Zitat aus Andy Fields Buch hinzugefügt
Tatami
Neu für mich, scheint aber für eine bestimmte Art von Nichtlinearität sinnvoll zu sein
Scortchi - Reinstate Monica

Antworten:

18

Box und Tidwell (1962) [1] stellten einen etwas allgemeinen Ansatz zur Schätzung von Transformationen der einzelnen Prädiktoren (IVs) vor und arbeiten den speziellen Fall der Schätzung von Leistungstransformationen der Prädiktorvariablen (einschließlich der Leistung 0, die - mit geeigneter Skalierung) durch - entspricht der Aufnahme von Protokollen als Grenzfall).

In diesem speziellen Fall von Leistungstransformationen stellt sich heraus, dass eine Verbindung zur Regression besteht Xjlog(Xj).

Also, wenn Sie Nichtlinearität der Art haben, wo die wahre (bedingte) Beziehung zwischenY und Xj ist linear in Xjαj dann kann es verwendet werden, um zu überprüfen αj1oder in der Tat zu schätzen α Werte.

Insbesondere beim Rückschritt Xj und Xjlog(Xj) Der Koeffizient des zweiten Terms geteilt durch den des ersten ist eine ungefähre Schätzung von αj1. (Diese Schätzung kann bis zur Konvergenz wiederholt werden.)

Wenn das geschätzt wird αj nahe bei 1 liegt, gibt es kaum Anzeichen dafür, dass eine Transformation erforderlich ist.

Beachten Sie, dass seit den beiden Begriffen im Produkt Xjlog(Xj) sind beide Funktionen von Xj, das ist einfach eine verwandelte XjIch würde das also nicht als Interaktion bezeichnen. Es ist nur ein transformierter Prädiktor. (In der Tat, auch wenn ich irgendwie versucht war, dies seitdem zu tun log(Xj) ist nicht als Prädiktor enthalten Ich würde diesen zweiten Begriff immer noch nicht als Interaktion bezeichnen.)

[1]: Box, GEP und Tidwell, PW (1962), "Transformation der unabhängigen Variablen". Technometrics 4 , 531 & ndash ; 550.

Glen_b -State Monica
quelle
1
Vielleicht hat dies einen begrenzten Wert, insbesondere wenn man Grund hat, eine Nichtlinearität dieser spezifischen Potenzform zu erwarten, oder wenn man gezwungen ist, Software zu verwenden, die keine moderneren Alternativen bietet, wie beispielsweise die Verwendung eines GAM (Generalized Additive Model), um effektiv zu schätzen die Nichtlinearität direkt mit Splines. Oder wenn die Anzahl der Beobachtungen zu gering ist, um die Verwendung von Splines zu ermöglichen.
kjetil b halvorsen