Ich verstehe Heteroskedastizität nicht wirklich. Ich würde gerne wissen, ob mein Modell für diese Handlung geeignet ist oder nicht.
r
regression
residuals
heteroscedasticity
independence
Kanbhold
quelle
quelle
Antworten:
Wie @IrishStat kommentierte, müssen Sie Ihre beobachteten Werte auf Fehler überprüfen, um festzustellen, ob es Probleme mit der Variabilität gibt. Ich werde gegen Ende darauf zurückkommen.
Damit Sie eine Vorstellung davon bekommen, was wir unter Heteroskedastizität verstehen: Wenn Sie ein lineares Modell auf eine Variable anwenden, gehen Sie im Wesentlichen davon aus, dass Ihr y ∼ N ( X β , σ 2 ) oder in Laienbegriffen Ihr y ist y wird erwartet , dass EQUATE X β plus einige Fehler , die Varianz & sgr; 2 . Dieses praktisch Ihr lineares Modell y = X β + ε , wo die Fehler ε ~ N ( 0 , & sgr; 2 )y y∼ N( Xβ, σ2) y Xβ σ2 y= Xβ+ ϵ ε ~ N( 0 , σ2) . OK, bis jetzt cool, lass uns das im Code sehen:
So richtig, wie verhält sich mein Modell:
was sollte dir so etwas geben: heißt, Ihre Residuen scheinen keinen offensichtlichen Trend zu haben, der auf Ihrem willkürlichen Index basiert (1. Diagramm - am wenigsten aussagekräftig), scheinen keine echte Korrelation zwischen ihnen zu haben (2. Diagramm - ziemlich wichtig und wahrscheinlich wichtiger als Homoskedastizität) und dass angepasste Werte keine offensichtliche Tendenz zum Versagen aufweisen, d. h. Ihre angepassten Werte im Vergleich zu Ihren Residuen erscheinen ziemlich zufällig. Auf dieser Grundlage würden wir sagen, dass wir keine Probleme mit der Heteroskedastizität haben, da unsere Residuen überall die gleiche Varianz zu haben scheinen.
OK, Sie wollen aber Heteroskedastizität. Definieren wir unter den gleichen Annahmen von Linearität und Additivität ein weiteres generatives Modell mit "offensichtlichen" Heteroskedastizitätsproblemen. Nach einigen Werten wird unsere Beobachtung viel lauter.
wo die einfachen Diagnosediagramme des Modells:
sollte so etwas wie geben: Hier scheint die erste Handlung ein bisschen "seltsam"; Es sieht so aus, als hätten wir ein paar Residuen, die sich in kleinen Größen anhäufen, aber das ist nicht immer ein Problem ... Die zweite Darstellung ist in Ordnung, das heißt, wir haben keine Korrelation zwischen Ihren Residuen in verschiedenen Verzögerungen, sodass wir für einen Moment atmen können. Und die dritte Handlung verschüttet die Bohnen: Es ist absolut klar, dass unsere Reste bei höheren Werten explodieren. Wir haben definitiv Heteroskedastizität in den Residuen dieses Modells und wir müssen etwas dagegen tun (zB IRLS , Theil-Sen-Regression usw.).
Hier war das Problem wirklich offensichtlich, aber in anderen Fällen hätten wir es vielleicht verpasst. Um die Wahrscheinlichkeit zu verringern, dass wir es verpassen, wurde von IrishStat eine weitere aufschlussreiche Handlung erwähnt: Residuen versus beobachtete Werte oder unser aktuelles Spielzeugproblem:
was sollte so etwas geben:
In Anbetracht Ihrer Situation scheint die Darstellung der Residuen im Vergleich zu den angepassten Werten relativ in Ordnung zu sein. Das Überprüfen Ihrer Residuen im Vergleich zu Ihren beobachteten Werten wäre wahrscheinlich hilfreich, um sicherzustellen, dass Sie auf der sicheren Seite sind. (Ich habe QQ-Plots oder ähnliches nicht erwähnt, um die Dinge nicht mehr zu verwirren, aber vielleicht möchten Sie diese auch kurz überprüfen.) Ich hoffe, dies hilft Ihnen beim Verständnis der Heteroskedastizität und auf was Sie achten sollten.
quelle
Ihre Frage scheint sich um Heteroskedastizität zu handeln (weil Sie sie namentlich erwähnt und den Tag hinzugefügt haben), aber Ihre explizite Frage (z. B. im Titel und) zum Ende Ihres Beitrags ist allgemeiner: "Ob mein Modell dementsprechend geeignet ist oder nicht Handlung". Die Bestimmung, ob ein Modell ungeeignet ist, ist mehr als die Beurteilung der Heteroskedastizität.
Ich habe Ihre Daten über diese Website (ht @Alexis) gescrappt. Beachten Sie, dass die Daten in aufsteigender Reihenfolge von sortiert werden
fitted
. Auf der Grundlage der Regression und der Darstellung oben links scheint dies hinreichend zutreffend zu sein:Ich sehe hier keine Hinweise auf Heteroskedastizität. Oben rechts (qq-Diagramm) scheint es ebenfalls keine Probleme mit der Normalitätsannahme zu geben.
Auf der anderen Seite scheinen die "S" -Kurve in der roten Tiefpassform (im oberen linken Diagramm) und die ACF- und PacF-Diagramme (im unteren Diagramm) problematisch zu sein. Ganz links befinden sich die meisten Residuen über der grauen 0-Linie. Wenn Sie sich nach rechts bewegen, fällt der Großteil der Residuen unter 0, dann über und dann wieder unter. Das Ergebnis ist, dass, wenn ich Ihnen sage, dass ich ein bestimmtes Residuum betrachte und dass es einen negativen Wert hat (aber ich habe Ihnen nicht gesagt, welches ich betrachte), Sie mit guter Genauigkeit vermuten können, dass die Residuen in der Nähe sind wurden auch negativ bewertet. Mit anderen Worten, die Residuen sind nicht unabhängig. Wenn Sie etwas über eine Residuen wissen, erhalten Sie Informationen über andere.
Dies kann neben Parzellen auch getestet werden. Ein einfacher Ansatz ist die Verwendung eines Lauftests :
Dies hat zur Folge, dass Ihr Modell falsch spezifiziert ist. Da die Beziehung zwei Biegungen enthält, möchten Sie hinzufügenX2 X3 Begriffe zu Ihrem Modell Konto dafür.
Um Ihre expliziten Fragen zu beantworten: Ihr Plot zeigt serielle Autokorrelationen / Nichtunabhängigkeit Ihrer Residuen. Dies bedeutet, dass Ihr Modell in seiner aktuellen Form nicht geeignet ist.
quelle