Ich möchte Datenpunkte so klassifizieren, dass sie entweder ein komplexeres Modell oder kein komplexeres Modell benötigen. Mein derzeitiger Gedanke ist es, alle Daten an ein einfaches lineares Modell anzupassen und die Größe der Residuen zu beobachten, um diese Klassifizierung vorzunehmen. Ich habe dann etwas über die Verzerrungs- und Varianzbeiträge zum Fehler gelesen und festgestellt, dass es eine bessere Maßnahme sein könnte, wenn ich die Verzerrung direkt berechnen könnte, als mit dem Gesamtfehler (Residuum oder standardisiertes Residuum) zu arbeiten.
Ist es möglich, die Verzerrung direkt mit einem linearen Modell abzuschätzen? Mit oder ohne Testdaten? Würde hier eine Kreuzvalidierung helfen?
Wenn nicht, kann man ein gemitteltes Bootstrapping-Ensemble linearer Modelle (ich denke, es heißt Bagging) verwenden, um die Verzerrung zu approximieren?
Antworten:
Sie können Fehler (Residuen) im Allgemeinen nicht in Bias- und Varianzkomponenten zerlegen. Der einfache Grund ist, dass Sie im Allgemeinen die wahre Funktion nicht kennen. Denken Sie daran, dass und dass das Unbekannte ist, das Sie schätzen möchten.f ( x )bias(f^(x))=E[f^(x)−f(x)], f(x)
Was ist mit Bootstrapping? Es ist möglich, die Verzerrung eines Schätzers durch Bootstrapping zu schätzen, aber es geht nicht um Bagging-Modelle, und ich glaube nicht, dass es eine Möglichkeit gibt, den Bootstrap zu verwenden, um die Verzerrung in zu bewerten da das Bootstrapping noch besteht basierend auf einer Vorstellung von der Wahrheit und kann trotz der Ursprünge ihres Namens nichts aus dem Nichts erschaffen.f^(x),
Zur Verdeutlichung: Die Bootstrap-Schätzung der Verzerrung im Schätzer ist ^ b i a s B= θ *(⋅) - θ ,θ^
Dabei ist der Durchschnitt Ihrer Statistik, die für Bootstrap-Beispiele berechnet wurde . Dieser Prozess emuliert den der Stichprobe aus einer bestimmten Population und der Berechnung Ihrer interessierenden Menge. Dies funktioniert nur, wenn im Prinzip direkt aus der Population berechnet werden kann. Die Bootstrap-Schätzung der Verzerrung bewertet, ob die Plug-In-Schätzung - dh nur die gleiche Berechnung für eine Stichprobe anstelle der Grundgesamtheit - verzerrt ist.B θθ^∗(⋅) B θ^
Wenn Sie nur Ihre Residuen verwenden möchten, um die Modellanpassung zu bewerten, ist dies durchaus möglich. Wenn Sie, wie Sie in den Kommentaren sagen, die verschachtelten Modelle und , können Sie mit ANOVA prüfen, ob das größere Modell die Summe von erheblich reduziert quadratischer Fehler.f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2f1(x)=3x1+2x2 f2(x)=3x1+2x2+x1x2
quelle
Eine Situation, in der Sie eine Schätzung der Zerlegung erhalten können, besteht darin, dass Sie Punkte repliziert haben (dh mehr als eine Antwort für verschiedene Kombinationen der Prädiktoren haben).
Dies ist hauptsächlich auf Situationen beschränkt, in denen Sie die Kontrolle über die unabhängigen Variablen haben (z. B. in Experimenten) oder in denen sie alle diskret sind (wenn nicht zu viele x-Kombinationen vorhanden sind und Sie eine ausreichend große Stichprobe für x-Wert-Kombinationen entnehmen können mehrere Punkte bekommen).
Die replizierten Punkte bieten Ihnen eine modellfreie Möglichkeit, den bedingten Mittelwert zu schätzen. In solchen Situationen besteht die Möglichkeit, die verbleibende Quadratsumme in reine Fehler und mangelnde Anpassung zu zerlegen , aber Sie haben auch direkte (wenn auch notwendigerweise verrauschte) Schätzungen der Verzerrung bei jeder Kombination von x-Werten, für die Sie mehrere Antworten haben.
quelle
In dem etwas komplexeren Bereich der Kalman-Filterung testen Menschen manchmal die Residuen (beobachtete Messungen minus vorhergesagte Messungen), um nach Modelländerungen oder Fehlerbedingungen zu suchen. Wenn das Modell perfekt ist und das Rauschen Gauß'sch ist, sollten die Residuen theoretisch auch Gauß'sch mit dem Mittelwert Null sein und auch mit einer vorhergesagten Kovarianzmatrix übereinstimmen. Menschen können mit sequentiellen Tests wie einem Sequential Probability Ratio Test (SPRT) auf einen Mittelwert ungleich Null testen. Ihre Situation ist anders, weil Sie eher einen festen Datenstapel als einen stetigen Strom neuer Daten haben. Die Grundidee, die Stichprobenverteilung der Residuen zu betrachten, könnte jedoch weiterhin zutreffen.
Sie geben an, dass sich der von Ihnen modellierte Prozess gelegentlich ändern kann. Um mehr aus Ihren Daten herauszuholen, müssen Sie wahrscheinlich andere Faktoren identifizieren, die diese Änderung verursachen. Betrachten Sie zwei Möglichkeiten: (1) Möglicherweise benötigen Sie lokale Modelle anstelle eines globalen Modells, z. B. weil nur in einigen Betriebsregionen schwerwiegende Nichtlinearitäten vorliegen, oder (2) möglicherweise ändert sich der Prozess im Laufe der Zeit.
Wenn es sich um ein physisches System handelt und Ihre Proben keine großen Zeitintervalle voneinander entfernt sind, können diese Prozessänderungen über erhebliche Zeiträume bestehen bleiben. Das heißt, echte Modellparameter können sich gelegentlich ändern und für einen bestimmten Zeitraum bestehen bleiben. Wenn Ihre Daten mit einem Zeitstempel versehen sind, können Sie die Residuen im Laufe der Zeit betrachten. Angenommen, Sie haben y = Ax + b unter Verwendung aller Ihrer Daten angepasst und A und b gefunden. Gehen Sie dann zurück und testen Sie die Restsequenz r [k] = y [k] - Ax [k] - b, wobei k ein Index ist, der den Zeiten in sequentieller Reihenfolge entspricht. Suchen Sie nach Mustern im Zeitverlauf, z. B. nach Zeiträumen, in denen zusammenfassende Statistiken wie || r [k] || vorliegen bleibt für einige Zeit höher als normal. Sequentielle Tests sind am empfindlichsten für die Erkennung von Fehlern mit anhaltender Vorspannung, wie z. B. SPRT oder sogar CUSUM für einzelne Vektorindizes.
quelle
Die Antwort lautet Nein , da Verzerrung und Varianz Attribute von Modellparametern sind und nicht die Daten, mit denen sie geschätzt werden. Es gibt eine teilweise Ausnahme von dieser Aussage, die sich auf Verzerrung und Varianz bezieht, die (ha!) Durch den Prädiktorraum variieren; mehr dazu weiter unten. Beachten Sie, dass dies absolut nichts damit zu tun hat, eine "wahre" Funktion zu kennen, die die Prädiktoren und Antwortvariablen in Beziehung setzt.
Betrachten Sie die Schätzung von in einer linearen Regression, , wobei eine Matrix von Prädiktoren ist, ein Vektor von Parameterschätzungen ist. und ist ein Vektor von Antworten. Nehmen wir aus Gründen der Argumentation an, dass wir eine unendliche Anzahl von Daten haben, aus denen wir ziehen können (dies ist übrigens nicht völlig lächerlich - wenn wir aktiv Daten aus einem physischen Prozess aufzeichnen würden, könnten wir Prädiktor- und Antwortdaten mit einer schnellen Geschwindigkeit aufzeichnen und erfüllt damit praktisch diese Annahme). Wir zeichnen also Beobachtungen, die jeweils aus einem einzelnen Antwortwert und einem Wert für jeden der Werte bestehenβ β^=(XTX)−1XTY X N×P β^ P×1 Y N×1 N P Prädiktoren. Wir berechnen dann unsere Schätzung von und zeichnen die Werte auf. Nehmen wir dann diesen gesamten Prozess und wiederholen ihn Mal, wobei jedes Mal unabhängige Ziehungen aus der Population vorgenommen werden. Wir werden Schätzungen von über die wir die Varianz jedes Elements im Parametervektor berechnen können. Es ist zu beachten, dass die Varianz dieser Parameterschätzungen umgekehrt proportional zu und proportional zu , unter der Annahme einer Orthogonalität der Prädiktoren.β^ Niter N Niter β^ N P
Die Vorspannung jedes Parameters kann auf ähnliche Weise geschätzt werden. Obwohl wir möglicherweise keinen Zugriff auf die Funktion "true" haben, nehmen wir an, dass wir eine beliebig große Anzahl von Draws aus der Population können, um zu berechnen , das als Proxy für den Parameterwert "true" dient . Wir gehen davon aus, dass dies eine unvoreingenommene Schätzung ist (gewöhnliche kleinste Quadrate) und dass die Anzahl der verwendeten Beobachtungen ausreichend groß war, so dass die Varianz dieser Schätzung vernachlässigbar ist. Für jeden der Parameter berechnen wir , wobei von bis . Wir nehmen den Durchschnitt dieser Unterschiede als Schätzung der Abweichung im entsprechenden Parameter.β^best P β^bestj−β^j j 1 Niter
Es gibt entsprechende Möglichkeiten, Verzerrung und Varianz mit den Daten selbst in Beziehung zu setzen, diese sind jedoch etwas komplizierter. Wie Sie sehen können, können Bias und Varianz für lineare Modelle geschätzt werden, Sie benötigen jedoch eine ganze Reihe von Hold-out-Daten. Ein heimtückischeres Problem ist die Tatsache, dass Ihre Analysen, sobald Sie mit einem festen Datensatz arbeiten, durch Ihre persönliche Varianz verschmutzt werden , da Sie bereits begonnen haben, durch den Garten der Gabelpfade zu wandern, und es keine Möglichkeit gibt, zu wissen, wie das geht würde außerhalb der Stichprobe replizieren (es sei denn, Sie haben gerade ein einzelnes Modell erstellt und diese Analyse ausgeführt und sich verpflichtet, es danach in Ruhe zu lassen).
In Bezug auf die Datenpunkte selbst ist die richtigste (und trivialste) Antwort, dass es einen Unterschied zwischen undY Y^ benötigen Sie ein komplexeres Modell (vorausgesetzt, Sie können alle relevanten Prädiktoren korrekt identifizieren; dies ist nicht möglich). Ohne auf eine langweilige Abhandlung über die philosophische Natur des "Irrtums" einzugehen, ist das Fazit, dass etwas passiert ist, das dazu geführt hat, dass Ihr Modell seine Marke verfehlt hat. Das Problem ist, dass das Hinzufügen von Komplexität die Varianz erhöht, was wahrscheinlich dazu führt, dass die Markierung an anderen Datenpunkten verfehlt wird. Daher ist es wahrscheinlich kein fruchtbares Unterfangen, sich über die Fehlerzuordnung auf der Ebene der einzelnen Datenpunkte Gedanken zu machen. Die Ausnahme (im ersten Absatz erwähnt) ergibt sich aus der Tatsache, dass Bias und Varianz tatsächlich Funktionen der Prädiktoren selbst sind, sodass Sie möglicherweise eine große Bias in einem Teil des Prädiktorraums und eine kleinere Bias in einem anderen Teil haben (dasselbe gilt für die Varianz).Y−Y^ viele Male (wobei und wurde nicht auf Basis der geschätzten ) und Plotten seine Vorspannung (Mittelwert) und die Varianz als eine Funktion der Werte von . Ich denke jedoch, dass dies ein ziemlich spezialisiertes Anliegen ist.Y^=Xβ^ β^ Y X
quelle