Ich sehe das als eine Art Ad-hoc-Methode und es scheint mir sehr faul zu sein, aber vielleicht fehlt mir etwas. Ich habe dies in mehreren Regressionen gesehen, aber lassen Sie es uns einfach halten:
Nehmen Sie nun die Residuen aus dem angepassten Modell
und Schichtung der Stichprobe anhand der Größe der Rückstände. Zum Beispiel, sagen die erste Probe ist der Boden 90% der Residuen und die zweite Probe die oberen 10%, dann gehen zwei Probenvergleiche zu tun - ich habe dies sowohl auf der Prädiktor in dem Modell, getan gesehen , und auf Variablen nicht im Modell. Die informelle Logik besagt, dass Punkte mit Werten, die weit über den im Modell erwarteten Werten (dh einem großen Residuum) liegen, sich in gewisser Weise unterscheiden. Dieser Unterschied wird auf diese Weise untersucht.
Meine Gedanken zu diesem Thema sind:
- Wenn Sie einen Unterschied von 2 Stichproben bei einem Prädiktor im Modell sehen, gibt es Auswirkungen des Prädiktors, die vom Modell im aktuellen Zustand nicht berücksichtigt werden (dh nichtlineare Auswirkungen).
- Wenn bei einer Variablen, die nicht im Modell enthalten ist, ein Unterschied von 2 Stichproben festgestellt wird, sollte er möglicherweise an erster Stelle im Modell enthalten sein.
Eine Sache, die ich empirisch (durch Simulationen) herausgefunden habe, ist, dass, wenn Sie den Mittelwert eines Prädiktors im Modell und auf diese Weise schichten, um die beiden Stichprobenmittelwerte ¯ x 1 und ¯ x 2 zu erhalten , dies der Fall ist positiv miteinander korreliert. Dies macht Sinn , da beide Proben auf dem abhängen ¯ y , ¯ x , σ x , σ y und ρ x y. Diese Korrelation erhöht sich, wenn Sie den Cutoff nach unten verschieben (dh den Prozentsatz, den Sie zum Teilen der Stichprobe verwenden). Zumindest muss für einen Vergleich mit zwei Stichproben der Standardfehler im Nenner der Statistik angepasst werden, um die Korrelation zu berücksichtigen (obwohl ich keine explizite Formel für die berechnet habe) Kovarianz).
Wie auch immer, meine grundlegende Frage lautet: Gibt es Gründe dafür? Wenn ja, in welchen Situationen könnte dies hilfreich sein? Klar, ich glaube nicht, dass es etwas gibt, aber vielleicht denke ich nicht richtig darüber nach.
quelle
IV
s? Wenn ja, kann ich den Grund dafür nicht erkennen, da die Restaufteilung diese Informationen bereits verwendet. Kannst du ein Beispiel geben, wo du das gesehen hast, es ist neu für mich?Antworten:
Der Vergleich der Mittelwerte ist zu schwach: Vergleichen Sie stattdessen die Verteilungen.
Es stellt sich auch die Frage, ob es wünschenswerter ist, die Größen der Residuen (wie angegeben) oder die Residuen selbst zu vergleichen. Deshalb bewerte ich beide.
Um genau zu sein, was gemeint ist, hier ist ein(x,y) y x und über dem Quantil q geschnitten werden 1 > q 0 und (mittels eines qq-Diagramms) Vergleichen der Verteilungen von x- Werten, die diesen beiden Gruppen zugeordnet sind.q0 q1>q0 x
R
Code zum Vergleichen von Daten (angegeben in parallelen Arrays und ) durch Regression von y auf x , Teilen der Residuen in drei Gruppen, indem sie unter das Quantil q geschnitten werdenx
y
Das fünfte Argument für diese Funktion
abs0
verwendet standardmäßig die Größen (Absolutwerte) der Residuen, um die Gruppen zu bilden. Später können wir dies durch eine Funktion ersetzen, die die Residuen selbst verwendet.Residuen werden verwendet, um viele Dinge zu erkennen: Ausreißer, mögliche Korrelationen mit exogenen Variablen, Anpassungsgüte und Homoskedastizität. Ausreißer sollten von Natur aus wenige und isoliert sein und daher hier keine bedeutende Rolle spielen. Um diese Analyse einfach zu halten, lassen Sie uns die letzten zwei erkunden: Güte der Anpassung (das heißt, Linearität der - y - Beziehung) und homoscedasticity (das heißt, Konstanz der Größe der Residuen). Wir können dies durch Simulation tun:x y
sd
abs0
n.trials
n
n
, das Beta, s undsd
). Beispiele für diese Diagramme sind unten aufgeführt.Verwenden wir nun diese Werkzeuge, um einige realistische Kombinationen von Nichtlinearität und Heteroskedastizität unter Verwendung der absoluten Werte der Residuen zu untersuchen:
Die Ausgabe ist eine Reihe von Plots. Die obere Reihe zeigt einex x x
Lassen Sie uns dasselbe tun, genau dieselben Daten verwenden , aber die Residuen selbst analysieren. Zu diesem Zweck wurde der vorherige Codeblock nach dieser Änderung erneut ausgeführt:
Vielleicht würde die Kombination dieser beiden Techniken funktionieren. Diese Simulationen (und Variationen davon, die der interessierte Leser nach Belieben ausführen kann) zeigen, dass diese Techniken nicht unbegründet sind.
quelle
Ich stimme beiden Ihrer Punkte zu. Wenn das Modell nicht ausreichend ist, sind die Residuen möglicherweise nicht ungefähr unabhängig und identisch verteilt. Wichtige Variablen könnten weggelassen worden sein oder die funktionale Form der Regressorvariablen könnte falsch sein. In diesem Fall würde ich die Standard-Regressionsdiagnose verwenden, um das Problem zu identifizieren. Sie könnten auch die richtigen Variablen im Modell mit der richtigen Funktionsform haben, aber dennoch eine nicht konstante Varianz. Dies kann nur durch Auftragen von ersichtlich werdenei xi
Andere haben angemerkt, dass dies möglicherweise nur ein Erkundungsinstrument ist, um festzustellen, ob die beiden Datensätze separat modelliert werden sollten. Wenn dies der Fall ist, könnten dies und möglicherweise andere explorative Ansätze in Ordnung sein. Aber die Frage wird dann, was machst du als nächstes? Wenn Sie dann zwei separate Regressionen durchführen und Rückschlüsse auf die Stichproben ziehen möchten, müssen Sie Ihrer Meinung nach irgendwie berücksichtigen, wie Sie die Stichprobe aufteilen.
quelle
Ich vermute, es gibt mehrere Gründe, dies zu tun, z. B. wenn angenommen wird, dass die Residuen konsistent sind, und die von Ihnen erwähnte Methode dabei hilft, abweichende Beobachtungen zu identifizieren. Daher liefert der zweite Schritt "korrigierte" Schätzer. Es gibt jedoch strengere Techniken, die eine Erkennung von Ausreißern durchführen oder Schätzer bereitstellen, die gegenüber solchen Beobachtungen robust sind, wie Quantilregressionen, LMS (kleinster Median der Quadrate) oder M-Schätzer usw., bei denen alle diese Methoden genau definiert sind und bekannte statistische Eigenschaften. (Dies wurde adressiert von @Michael Chernik)
Eine andere Motivation könnte die Identifizierung von Clustern sein, aber dies ist im Vergleich zu den verfügbaren Techniken zur Clusterdetektion, die ebenfalls gut definiert und weit verbreitet sind, von grundlegender Bedeutung.
In beiden Fällen scheint die Verwendung der Residuen informell und primitiv zu sein, kann aber dennoch als Erkundungsinstrument geduldet werden. Es kommt auch auf die Domain der Leser an. Ich würde dies für einige Sozialwissenschaften akzeptieren, in denen quantitative Instrumente weniger beliebt sind.
quelle