Wenn ich ein Regressionsmodell habe:
wobei und ,
Wann wäre die Verwendung von , dem gewöhnlichen Schätzer der kleinsten Quadrate von , eine schlechte Wahl für einen Schätzer?
Ich versuche ein Beispiel herauszufinden, bei dem die kleinsten Quadrate schlecht funktionieren. Ich suche also nach einer Verteilung der Fehler, die die vorherige Hypothese erfüllt, aber schlechte Ergebnisse liefert. Wenn die Familie der Verteilung durch Mittelwert und Varianz bestimmt würde, wäre das großartig. Wenn nicht, ist es auch in Ordnung.
Ich weiß, dass "schlechte Ergebnisse" etwas vage sind, aber ich denke, die Idee ist verständlich.
Um Verwirrungen zu vermeiden, weiß ich, dass die kleinsten Quadrate nicht optimal sind und dass es bessere Schätzer wie die Gratregression gibt. Aber das ist nicht das, was ich anstrebe. Ich möchte ein Beispiel, bei dem kleinste Quadrate unnatürlich wären.
Ich kann mir Dinge wie vorstellen, dass der Fehlervektor in einer nicht konvexen Region von lebt , aber da bin ich mir nicht sicher.
Bearbeiten 1: Als eine Idee, um eine Antwort zu helfen (die ich nicht herausfinden kann, wie ich weiter gehen soll). ist BLAU. Es könnte also hilfreich sein, darüber nachzudenken, wann ein linearer unverzerrter Schätzer keine gute Idee wäre.
Edit 2: Wie Brian betonte, ist eine schlechte Idee , wenn schlecht konditioniert ist, da die Varianz zu groß ist und stattdessen Ridge Regression verwendet werden sollte. Ich bin mehr daran interessiert zu wissen, welche Verteilung , damit die kleinsten Quadrate schlecht funktionieren.
Gibt es eine Verteilung mit einer Mittelwert- und Identitätsvarianzmatrix von Null für , die diesen Schätzer nicht effizient macht?
Antworten:
Brian Borchers Antwort ist ziemlich gut - Daten, die seltsame Ausreißer enthalten, werden von OLS oft nicht gut analysiert. Ich werde dies nur erweitern, indem ich ein Bild, einen Monte Carlo und etwas
R
Code hinzufüge .Sie sich ein sehr einfaches Regressionsmodell vor:
Dieses Modell entspricht Ihrem Setup mit einem Steigungskoeffizienten von 1.
Das angehängte Diagramm zeigt einen Datensatz, der aus 100 Beobachtungen zu diesem Modell besteht, wobei die x-Variable von 0 bis 1 reicht. Im geplotteten Datensatz gibt es eine Zeichnung für den Fehler, die einen Ausreißerwert ergibt (in diesem Fall +31). . Ebenfalls dargestellt sind die OLS-Regressionslinie in Blau und die Regressionslinie mit den geringsten absoluten Abweichungen in Rot. Beachten Sie, wie OLS, aber nicht LAD vom Ausreißer verzerrt wird:
Wir können dies überprüfen, indem wir einen Monte Carlo durchführen. Im Monte Carlo generiere ich einen Datensatz von 100 Beobachtungen mit demselben und einem mit der obigen Verteilung 10.000 Mal. Bei diesen 10.000 Replikationen werden wir in der überwiegenden Mehrheit keinen Ausreißer bekommen. Aber in ein paar Fällen werden wir einen Ausreißer bekommen, und es wird OLS vermasseln, aber nicht jedes Mal LAD. Der folgende Code führt den Monte Carlo aus. Hier sind die Ergebnisse für die Steigungskoeffizienten:ϵx ϵ
R
Sowohl OLS als auch LAD erzeugen unverzerrte Schätzer (die Steigungen betragen durchschnittlich 1,00 über die 10.000 Replikationen). OLS erzeugt einen Schätzer mit einer viel höheren Standardabweichung, jedoch 0,34 gegenüber 0,09. Daher ist OLS hier unter unvoreingenommenen Schätzern nicht am besten / effizientesten. Es ist natürlich immer noch BLAU, aber LAD ist nicht linear, also gibt es keinen Widerspruch. Beachten Sie die wilden Fehler, die OLS in der Spalte Min und Max machen kann. Nicht so LAD.
Hier ist der R-Code sowohl für den Graphen als auch für den Monte Carlo:
quelle
Ein Beispiel wäre, wenn Sie den Mittelwert nicht schätzen möchten. Dies kam in meiner Arbeit zum Ausdruck, in der wir die Anzahl der Sexualpartner schätzten, die Menschen hatten, um die Ausbreitung von HIV / AIDS zu modellieren. Es gab mehr Interesse an den Schwänzen der Distribution: Welche Leute haben viele, viele Partner?
In diesem Fall möchten Sie möglicherweise eine Quantilregression. Eine meiner Meinung nach nicht ausreichend genutzte Methode.
quelle
Wenn eine schlecht konditionierte Matrix oder genau singulär ist, ist Ihr Schätzer für kleinste Quadrate in der Praxis äußerst instabil und nutzlos.X
Wenn Sie Ihre Aufmerksamkeit auf die Verteilung von , sollten Sie berücksichtigen, dass der Gauß-Markov-Satz sicherstellt, dass die Lösung der kleinsten Quadrate ein unverzerrter Schätzer für minimale Varianz ist.ϵ
Wenn die Verteilung von jedoch ausreichend extrem ist, können Beispiele konstruiert werden, bei denen die Verteilung der Schätzungen schlechte Eigenschaften aufweist (insbesondere die Möglichkeit (wenn auch mit geringer Wahrscheinlichkeit) extrem großer Fehler in ), obwohl sie minimal ist Varianz. βϵ β
quelle