Ich bin nicht sicher, ob normalize das richtige Wort ist, aber ich werde mein Bestes geben, um zu veranschaulichen, was ich zu fragen versuche. Der hier verwendete Schätzer sind die kleinsten Quadrate.
Angenommen, Sie haben . Sie können den Mittelwert um wobei und , also dass keinen Einfluss mehr auf die Schätzung von . y = β ' 0 + β 1 x ' 1 β ' 0 = β 0 + β 1 ˉ x 1 x ' 1 = x - ˉ x β ' 0 β 1
Damit meine ich in entspricht in . Wir haben die Gleichung zur einfacheren Berechnung der kleinsten Quadrate reduziert.y=β1x ' 1 β 1y=β0+β1x1
Wie wenden Sie diese Methode im Allgemeinen an? Jetzt habe ich das Modell , ich versuche es auf zu reduzieren . y = β 1 x '
Antworten:
Obwohl ich der hier gestellten Frage nicht gerecht werden kann - das würde eine kleine Monographie erfordern -, kann es hilfreich sein, einige Schlüsselideen zusammenzufassen.
Die Frage
Beginnen wir damit, die Frage neu zu formulieren und eine eindeutige Terminologie zu verwenden. Die Daten bestehen aus einer Liste geordneter Paare . Bekannte Konstanten und bestimmen die Werte und . Wir stellen ein Modell auf, in demα 1 α 2 x 1 , i = exp ( α 1 t i ) x 2 , i = exp ( α 2 t i )( tich, yich) α1 α2 x1,i=exp(α1ti) x2,i=exp(α2ti)
für die zu schätzenden Konstanten und ist zufällig und - zumindest in guter Näherung - unabhängig und hat eine gemeinsame Varianz (deren Schätzung ebenfalls von Interesse ist).β 2 ε iβ1 β2 εi
Hintergrund: lineares "Matching"
Mosteller und Tukey bezeichnen die Variablen = und als "Matcher". Sie werden verwendet, um die Werte von auf eine bestimmte Weise "abzugleichen" , die ich veranschaulichen werde. Allgemeiner gesagt, seien und beliebige zwei Vektoren im selben euklidischen Vektorraum, wobei die Rolle des "Ziels" und die des "Matchers" spielt. Wir überlegen, systematisch einen Koeffizienten variieren, um durch das Vielfache zu approximieren . ( x 1 , 1 , x 1 , 2 , ... ) , x 2 y = ( y 1 , y 2 , ... ) y x y x λ y λ x λ x y y - λ xx1 (x1,1,x1,2,…) x2 y=(y1,y2,…) y x y x λ y λx λx y wie möglich. Entsprechend wird die quadratische Länge von minimiert.y−λx
Eine Möglichkeit, diesen Übereinstimmungsprozess zu visualisieren, besteht darin, ein Streudiagramm von und zu erstellen, auf dem der Graph von gezeichnet ist . Die vertikalen Abstände zwischen den Streudiagrammpunkten und diesem Graphen sind die Komponenten des Restvektors ; Die Summe ihrer Quadrate soll so klein wie möglich sein. Bis auf eine Proportionalitätskonstante sind diese Quadrate die Flächen von Kreisen, die an den Punkten zentriert sind und deren Radien den Residuen entsprechen. Wir möchten die Summe der Flächen aller dieser Kreise minimieren.y x → λ x y - λ x ( x i , y i )x y x→λx y−λx (xi,yi)
Hier ist ein Beispiel, das den optimalen Wert von im mittleren Bereich zeigt:λ
Die Punkte im Streudiagramm sind blau. der Graph von ist eine rote Linie. In dieser Abbildung wird hervorgehoben, dass die rote Linie nur durch den Ursprung : Es handelt sich um einen ganz besonderen Fall der Linienanpassung.( 0 , 0 )x→λx (0,0)
Multiple Regression kann durch sequentielles Matching erhalten werden
Zurück zur Einstellung der Frage, wir haben ein Ziel und zwei Matcher und . Wir suchen Zahlen und für die durch wieder im kleinsten Abstandssinn so genau wie möglich angenähert wird . Beliebig beginnend mit stimmen Mosteller & Tukey die verbleibenden Variablen und mit überein . Schreiben Sie die Residuen für diese Übereinstimmungen als bzw. : Das gibt dies anx 1 x 2 b 1 b 2 y b 1 x 1 + b 2 x 2 x 1 x 2 y x 1 x 2 ≤ 1 y ≤ 1 ≤ 1 x 1y x1 x2 b1 b2 y b1x1+b2x2 x1 x2 y x1 x2⋅1 y⋅1 ⋅1 x1 wurde aus der Variablen "herausgenommen".
Wir können schreiben
Nachdem wir aus und , werden wir fortfahren, die Ziel-Residuen mit den Matcher-Residuen abzugleichen . Die endgültigen Residuen sind . Algebraisch haben wir geschriebenx 2 y y ≤ 1 x 2 ≤ 1 y ≤ 12x1 x2 y y⋅1 x2⋅1 y⋅12
Dies zeigt, dass im letzten Schritt der Koeffizient von bei einer Übereinstimmung von und mit .x 2 x 1 x 2 yλ3 x2 x1 x2 y
Wir hätten genauso gut vorgehen können, indem wir zuerst aus und , und und dann aus , was eine andere Menge von Residuen ergibt . Diesmal ist der im letzten Schritt gefundene Koeffizient von - nennen wir ihn - der Koeffizient von in einer Übereinstimmung von und mit .x 1 y x 1 ⋅ 2x2 x1 y x1 ⋅ 2 x 1 ≤ 2 y ≤ 2 y ≤ 21 x 1 μ 3 x 1 x 1 x 2 yy⋅ 2 x1 ⋅ 2 y⋅ 2 y⋅ 21 x1 μ3 x1 x1 x2 y
Zum Vergleich können wir schließlich ein Vielfaches (gewöhnliche Regression der kleinsten Quadrate) von gegen und ausführen . Diese Residuen seien . Es zeigt sich, dass die Koeffizienten in dieser multiplen Regression genau die zuvor gefundenen Koeffizienten und sind und dass alle drei Mengen von Residuen , und , sind identisch.y x 2 y ≤ l m μ 3 λ 3 y ≤ 12 y ≤ 21 y ≤ l mx1 x2 y⋅ l m μ3 λ3 y⋅ 12 y⋅ 21 y⋅ l m
Darstellung des Prozesses
Nichts davon ist neu: es steht alles im Text. Ich möchte eine bildliche Analyse unter Verwendung einer Streudiagramm-Matrix von allem, was wir bisher erhalten haben, anbieten.
Da diese Daten simuliert werden, haben wir den Luxus, die zugrunde liegenden "wahren" Werte von in der letzten Zeile und Spalte : Dies sind die Werte ohne den hinzugefügten Fehler.β 1 x 1 + β 2 x 2y β1x1+ β2x2
Die Streudiagramme unter der Diagonale wurden genau wie in der ersten Abbildung mit den Diagrammen der Streichhölzer verziert. Graphen mit einer Steigung von Null sind rot gezeichnet: Diese zeigen Situationen an, in denen der Matcher uns nichts Neues gibt. Die Residuen sind die gleichen wie das Ziel. Außerdem wird der Ursprung (wo immer er in einem Diagramm erscheint) als offener roter Kreis angezeigt: Denken Sie daran, dass alle möglichen übereinstimmenden Linien durch diesen Punkt verlaufen müssen.
Durch das Studium dieser Handlung kann viel über Regression gelernt werden. Einige der Highlights sind:
Die Übereinstimmung von mit (Zeile 2, Spalte 1) ist schlecht. Dies ist eine gute Sache: Es zeigt an, dass und sehr unterschiedliche Informationen liefern. Wenn Sie beide zusammen verwenden, passt dies wahrscheinlich besser zu als wenn Sie nur einen verwenden .x 1 x 1 x 2 yx2 x1 x1 x2 y
Sobald eine Variable aus einem Ziel entfernt wurde, ist es nicht sinnvoll, diese Variable erneut zu entfernen: Die am besten passende Linie ist Null. Siehe beispielsweise die Streudiagramme für gegen oder gegen . x 1 y ≤ 1 x 1x2 ⋅ 1 x1 y⋅ 1 x1
Die Werte , , und wurden alle aus .x 2 x 1 ≤ 2 x 2 ≤ 1 y ≤ l mx1 x2 x1 ⋅ 2 x2 ⋅ 1 y⋅ l m
Eine mehrfache Regression von gegen und kann zuerst erreicht werden, indem und berechnet werden . Diese Streudiagramme erscheinen bei (Zeile, Spalte) = bzw. . Mit diesen Residuen betrachten wir ihr Streudiagramm bei . Diese drei einvariablen Regressionen machen den Trick. Wie Mosteller & Tukey erläutern, lassen sich die Standardfehler der Koeffizienten auch aus diesen Regressionen fast genauso leicht ermitteln - aber das ist nicht das Thema dieser Frage, deshalb werde ich hier aufhören.x 1 x 2 y ≤ 1 x 2 ≤ 1 ( 8 , 1 ) ( 2 , 1 ) ( 4 , 3 )y x1 x2 y⋅ 1 x2 ⋅ 1 ( 8 , 1 ) ( 2 , 1 ) ( 4 , 3 )
Code
Diese Daten wurden (reproduzierbar)
R
mit einer Simulation erstellt. Die Analysen, Kontrollen und Diagramme wurden ebenfalls mit erstelltR
. Das ist der Code.quelle
y.21
y.12