Wann wären kleinste Quadrate eine schlechte Idee?

11

Wenn ich ein Regressionsmodell habe: wobei und ,

Y=Xβ+ε
V[ε]=IdRn×nE[ε]=(0,,0)

Wann wäre die Verwendung von , dem gewöhnlichen Schätzer der kleinsten Quadrate von , eine schlechte Wahl für einen Schätzer?βOLSβ

Ich versuche ein Beispiel herauszufinden, bei dem die kleinsten Quadrate schlecht funktionieren. Ich suche also nach einer Verteilung der Fehler, die die vorherige Hypothese erfüllt, aber schlechte Ergebnisse liefert. Wenn die Familie der Verteilung durch Mittelwert und Varianz bestimmt würde, wäre das großartig. Wenn nicht, ist es auch in Ordnung.

Ich weiß, dass "schlechte Ergebnisse" etwas vage sind, aber ich denke, die Idee ist verständlich.

Um Verwirrungen zu vermeiden, weiß ich, dass die kleinsten Quadrate nicht optimal sind und dass es bessere Schätzer wie die Gratregression gibt. Aber das ist nicht das, was ich anstrebe. Ich möchte ein Beispiel, bei dem kleinste Quadrate unnatürlich wären.

Ich kann mir Dinge wie vorstellen, dass der Fehlervektor in einer nicht konvexen Region von lebt , aber da bin ich mir nicht sicher.ϵRn

Bearbeiten 1: Als eine Idee, um eine Antwort zu helfen (die ich nicht herausfinden kann, wie ich weiter gehen soll). ist BLAU. Es könnte also hilfreich sein, darüber nachzudenken, wann ein linearer unverzerrter Schätzer keine gute Idee wäre.βOLS

Edit 2: Wie Brian betonte, ist eine schlechte Idee , wenn schlecht konditioniert ist, da die Varianz zu groß ist und stattdessen Ridge Regression verwendet werden sollte. Ich bin mehr daran interessiert zu wissen, welche Verteilung , damit die kleinsten Quadrate schlecht funktionieren.XXβOLSε

βOLSβ+(XX)1Xε Gibt es eine Verteilung mit einer Mittelwert- und Identitätsvarianzmatrix von Null für , die diesen Schätzer nicht effizient macht?ε

Manuel
quelle
1
Ich möchte nicht hart klingen, aber ich bin mir nicht ganz sicher, was Sie wollen. Es gibt viele Möglichkeiten, wie etwas eine schlechte Wahl sein könnte. In der Regel bewerten wir Schätzer in Bezug auf Verzerrung , Varianz , Robustheit und Effizienz . Wie Sie bemerken, ist der OLS-Schätzer beispielsweise BLAU .
Gung - Reinstate Monica
1
OTOH, die Varianz könnte so groß sein, dass sie unbrauchbar ist, was eine geringere Varianz, aber einen voreingenommenen Schätzer wie Ridge bevorzugt. Ein weiteres Beispiel ist, dass OLS maximal alle Informationen in Ihren Daten verwendet, dies jedoch für Ausreißer anfällig macht. Es gibt viele alternative Verlustfunktionen, die robuster sind und gleichzeitig versuchen, die Effizienz aufrechtzuerhalten. Es könnte klarer sein, wenn Sie Ihre Frage in solchen Begriffen neu formulieren könnten. Ich weiß nicht, was es für einen Schätzer bedeutet, "unnatürlich" zu sein.
Gung - Reinstate Monica
Vielen Dank für Ihren Kommentar. Dadurch wurde mir die Mehrdeutigkeit der Frage klar. Ich hoffe, es ist jetzt klarer
Manuel
Siehe die Regression in dieser Antwort . Kurz gesagt: Einflussreiche Ausreißer können ein Problem sein.
Glen_b -State Monica

Antworten:

8

Brian Borchers Antwort ist ziemlich gut - Daten, die seltsame Ausreißer enthalten, werden von OLS oft nicht gut analysiert. Ich werde dies nur erweitern, indem ich ein Bild, einen Monte Carlo und etwas RCode hinzufüge .

Sie sich ein sehr einfaches Regressionsmodell vor:

Yi=β1xi+ϵi ϵi={N(0,0.04)w.p.0.99931w.p.0.000531w.p.0.0005

Dieses Modell entspricht Ihrem Setup mit einem Steigungskoeffizienten von 1.

Das angehängte Diagramm zeigt einen Datensatz, der aus 100 Beobachtungen zu diesem Modell besteht, wobei die x-Variable von 0 bis 1 reicht. Im geplotteten Datensatz gibt es eine Zeichnung für den Fehler, die einen Ausreißerwert ergibt (in diesem Fall +31). . Ebenfalls dargestellt sind die OLS-Regressionslinie in Blau und die Regressionslinie mit den geringsten absoluten Abweichungen in Rot. Beachten Sie, wie OLS, aber nicht LAD vom Ausreißer verzerrt wird:

OLS vs LAD mit einem Ausreißer

Wir können dies überprüfen, indem wir einen Monte Carlo durchführen. Im Monte Carlo generiere ich einen Datensatz von 100 Beobachtungen mit demselben und einem mit der obigen Verteilung 10.000 Mal. Bei diesen 10.000 Replikationen werden wir in der überwiegenden Mehrheit keinen Ausreißer bekommen. Aber in ein paar Fällen werden wir einen Ausreißer bekommen, und es wird OLS vermasseln, aber nicht jedes Mal LAD. Der folgende Code führt den Monte Carlo aus. Hier sind die Ergebnisse für die Steigungskoeffizienten:ϵxϵR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

Sowohl OLS als auch LAD erzeugen unverzerrte Schätzer (die Steigungen betragen durchschnittlich 1,00 über die 10.000 Replikationen). OLS erzeugt einen Schätzer mit einer viel höheren Standardabweichung, jedoch 0,34 gegenüber 0,09. Daher ist OLS hier unter unvoreingenommenen Schätzern nicht am besten / effizientesten. Es ist natürlich immer noch BLAU, aber LAD ist nicht linear, also gibt es keinen Widerspruch. Beachten Sie die wilden Fehler, die OLS in der Spalte Min und Max machen kann. Nicht so LAD.

Hier ist der R-Code sowohl für den Graphen als auch für den Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)
Rechnung
quelle
@Manuel Danke. Ich habe einen Fehler in meinem R-Programm festgestellt - es gab eine 0.04, bei der es eine sqrt (0.04) geben sollte. Es änderte nichts an der Ausrichtung der Antwort. Es machte einen kleinen Unterschied zu den Ergebnissen. Wenn Sie den Code jedoch zuvor kopiert haben, sollten Sie ihn jetzt erneut kopieren.
Bill
7

Ein Beispiel wäre, wenn Sie den Mittelwert nicht schätzen möchten. Dies kam in meiner Arbeit zum Ausdruck, in der wir die Anzahl der Sexualpartner schätzten, die Menschen hatten, um die Ausbreitung von HIV / AIDS zu modellieren. Es gab mehr Interesse an den Schwänzen der Distribution: Welche Leute haben viele, viele Partner?

In diesem Fall möchten Sie möglicherweise eine Quantilregression. Eine meiner Meinung nach nicht ausreichend genutzte Methode.

Peter Flom - Monica wieder einsetzen
quelle
Was meinst du damit, dass du den Mittelwert nicht schätzen willst? Ich betrachte als festen Parameter in einem frequentistischen Ansatz, wenn es das ist, wovon Sie sprechen. β
Manuel
Oder meintest du den Mittelwert von ? Y
Manuel
Ja, ich meinte den Mittelwert von Y. Genau das macht die OLS-Regression.
Peter Flom - Monica wieder einsetzen
Toller Punkt, + 1. Betrachten Sie einfach den Ausdruck und berechnen Sie sein Minimum. Es ist der Mittelpunkt zwischen a und b. Dies steht im Gegensatz zu der L 1(xa)2+(xb)2L1
-Fehlerfunktion
6

Wenn eine schlecht konditionierte Matrix oder genau singulär ist, ist Ihr Schätzer für kleinste Quadrate in der Praxis äußerst instabil und nutzlos. X

Wenn Sie Ihre Aufmerksamkeit auf die Verteilung von , sollten Sie berücksichtigen, dass der Gauß-Markov-Satz sicherstellt, dass die Lösung der kleinsten Quadrate ein unverzerrter Schätzer für minimale Varianz ist. ϵ

Wenn die Verteilung von jedoch ausreichend extrem ist, können Beispiele konstruiert werden, bei denen die Verteilung der Schätzungen schlechte Eigenschaften aufweist (insbesondere die Möglichkeit (wenn auch mit geringer Wahrscheinlichkeit) extrem großer Fehler in ), obwohl sie minimal ist Varianz. βϵβ

Brian Borchers
quelle
Was wäre eine extreme Verbreitung von ? Denken Sie daran, es hat eine Identitätskovarianzmatrix. ε
Manuel
1
Außerdem stellt Gauß-Markov sicher, dass die kleinsten Quadrate ein unverzerrter Schätzer für die minimale Varianz unter den linearen sind. Möglicherweise sind lineare Schätzer für bestimmte Verteilungen nicht reazonierbar. Das möchte ich verstehen.
Manuel
Betrachten Sie die Verteilung, bei der mit einer Wahrscheinlichkeit von 0,9999 und mit einer Wahrscheinlichkeit von und mit einer Wahrscheinlichkeit von . Angenommen, (die ys sind nur direkte Messungen des unbekannten Parameters ), und Sie haben ungefähr 100 Beobachtungen. Es ist sehr wahrscheinlich, dass Ihre Schätzung perfekt ist, aber es besteht eine erhebliche Möglichkeit, dass eine Schätzung einen der seltenen schlechten Werte enthält und daher nicht funktioniert. ϵ i = 100 0,00005 ϵ i = - 100 0,00005 X = I β ϵϵi=0ϵi=1000.00005ϵi=1000.00005X=Iβϵ
Brian Borchers
Wenn Sie etwas wirklich Seltsames wollen, sollten Sie eine entsprechend skalierte Student-t-Verteilung mit 4 Freiheitsgraden verwenden. Dies ist eine bekannte Verteilung mit endlichem Mittelwert und Varianz, aber unbegrenztem vierten Moment. Angenommen, Sie haben 1 Beobachtung mit und . Die Verteilung von hat einen endlichen Mittelwert und eine endliche Varianz, aber einen unbegrenzten vierten Moment. β = 0 βX=1β=0β^
Brian Borchers
Ich glaube, dass Ihr zweiter Kommentar das ist, wonach ich suche. Es stört mich nur die geringe Wahrscheinlichkeit, dass etwas passiert. Auch aus diesem Beispiel ist ziemlich klar, wie man einen besseren Schätzer erstellt, wenn man die Verteilung der Fehler kennt.
Manuel