Ich habe gesehen, dass "Residuen" unterschiedlich definiert sind als "vorhergesagte minus tatsächliche Werte" oder "tatsächliche minus vorausgesagte Werte". Um zu veranschaulichen, dass beide Formeln weit verbreitet sind, vergleichen Sie die folgenden Websuchen:
In der Praxis macht es fast keinen Unterschied, da das Vorzeichen der einzelnen Residuen normalerweise keine Rolle spielt (z. B. ob sie quadriert sind oder die absoluten Werte genommen werden). Meine Frage ist jedoch: Wird eine dieser beiden Versionen (Vorhersage zuerst gegen tatsächliche zuerst) als "Standard" betrachtet? Ich mag es, konsequent zu sein. Wenn es also einen gut etablierten konventionellen Standard gibt, würde ich ihn lieber befolgen. Wenn es jedoch keine Norm gibt, nehme ich das gerne als Antwort an, wenn sich überzeugend nachweisen lässt, dass es keine Normkonvention gibt.
quelle
Antworten:
Die Residuen sind immer aktuell minus vorhergesagt. Die Modelle sind: , daher die Residuen & epsi , die Schätzungen von Fehlern sind ε : ε = y - y
Ich stimme @whuber zu, dass das Vorzeichen mathematisch keine Rolle spielt. Es ist nur gut, eine Convention zu haben. Und die aktuelle Konvention ist wie in meiner Antwort.
Da OP meine Autorität in diesem Bereich in Frage gestellt hat, füge ich einige Referenzen hinzu:
quelle
Ich bin gerade auf einen zwingenden Grund gestoßen, dass eine Antwort die richtige ist.
Die blaue Kurve ist die gewöhnliche Anpassung der kleinsten Quadrate. Es zeichnet die angepassten Werte auf.
Dies ist ein Standarddiagnoseplot, der zeigt, wie sich die verschobenen bedingten Verteilungen mit den vorhergesagten Werten ändern. Geometrisch ist es fast dasselbe wie das "Entkippen" des vorherigen Streudiagramms.
Dies zeigt die gleichen Größen wie die vorherige Abbildung, aber die Residuen wurden berechnet, indem die Daten von ihren Anpassungen subtrahiert wurden - was natürlich gleichbedeutend ist mit dem Negieren der vorherigen Residuen.
Obwohl beide vorhergehenden Figuren in jeder Hinsicht mathematisch äquivalent sind - eine wird durch einfaches Umdrehen der Punkte über den blauen Horizont in die andere umgewandelt -, weist eine von ihnen eine viel direktere visuelle Beziehung zur ursprünglichen Zeichnung auf.
Wenn unser Ziel darin besteht, die Verteilungseigenschaften der Residuen mit den Eigenschaften der Originaldaten in Beziehung zu setzen - und das ist fast immer der Fall -, ist es daher besser, die Antworten einfach zu verschieben, anstatt sie zu verschieben und umzukehren.
quelle
Green & Tashman (2008, Foresight ) berichten über eine kleine Umfrage zur analogen Frage nach Prognosefehlern. Ich werde die Argumente für beide Konventionen zusammenfassen, wie von ihnen berichtet:
Argumente für "aktuell vorausgesagt"
Mindestens ein Befragter aus der Seismologie schrieb, dies sei auch die Konvention zur Modellierung der Laufzeit seismischer Wellen. "Wenn die tatsächliche seismische Welle vor der vom Modell vorhergesagten Zeit eintrifft, haben wir eine negative Restlaufzeit (Fehler)." ( sic )
Argumente für "prognostiziert-aktuell"
Wenn eine positive Verzerrung als positive erwartete Fehler definiert wird, würde dies bedeuten, dass die Prognosen mit dieser Konvention im Durchschnitt zu hoch sind.
Und dies ist so ziemlich das einzige Argument für diese Konvention. Andererseits ist es angesichts der Missverständnisse, zu denen die andere Konvention führen kann (positive Fehler = zu niedrige Prognose), eine starke.
Am Ende würde ich argumentieren, dass es darauf ankommt, wem Sie Ihre Residuen mitteilen müssen. Und da diese Diskussion sicherlich zwei Seiten hat, ist es sinnvoll, explizit anzugeben, welcher Konvention Sie folgen.
quelle
Unterschiedliche Terminologie schlägt unterschiedliche Konventionen vor. Der Begriff "Residuum" impliziert, dass es das ist, was übrig bleibt, nachdem alle erklärenden Variablen berücksichtigt wurden, dh tatsächlich vorhergesagt wurden. "Vorhersagefehler" impliziert, dass es darum geht, wie sehr die Vorhersage vom tatsächlichen Wert abweicht, dh von der tatsächlichen Vorhersage.
quelle
Die Antwort von @Aksakal ist völlig korrekt, aber ich füge nur ein zusätzliches Element hinzu, das mir (und meinen Schülern) hilft.
Das Motto: Statistik ist "perfekt". Wie in, kann ich immer die perfekte Vorhersage liefern (ich weiß, dass einige Augenbrauen gerade hochziehen ... also hör mir zu).
quelle
Aber wenn dann erhalten wir unsere Residuen über , wobei eine idempotente Matrix ist, die in den Raum orthogonal zum Spaltenraum der Entwurfsmatrix projiziert . Wenn wir stattdessen verwendet dann enden wir mit bis . Aber ist selbst nicht idempotent als . Also ist wirklich das Negativ einer Projektionsmatrix, nämlich . Ich betrachte dies als Rückgängigmachen des mit eingeführten Negativs. Aus Sparsamkeitsgründen ist es also besser, nur zu verwendenε^=Y−Y^ (I−PX)Y I−PX X Y=Xβ−ε ε^=(PX−I)Y PX−I P X - I I - P X Y = X β - ε Y = X β + ε Y - Y(PX−I)2=P2X−2PX+I=−(PX−I) PX−I I−PX Y=Xβ−ε Y=Xβ+ε was wiederum als Residuen ergibt .Y−Y^
Wie an anderer Stelle erwähnt, ist es nicht so, als würde etwas kaputt gehen, wenn wir , aber es kommt zu dieser doppelten negativen Situation, die meiner Meinung nach ein guter Grund ist, einfach .Y - YY^−Y Y−Y^
quelle