Angenommen, ich habe einen Datensatz in dem die Unsicherheit in den Messungen (die sich aus der Ausbreitung systematischer Fehler aus dem Messgerät ergeben) für jeden unterschiedlich ist Punkt. Wenn ich eine lineare Regression des Datensatzes durchführe, wie berechne ich die Unsicherheit in der Steigung? Ich möchte eine explizite Prozedur oder Formel.( Δ x i , Δ y i )
linear-model
measurement-error
errors-in-variables
Iván Mauricio Burbano
quelle
quelle
Antworten:
Wir können das Experiment als wobei bezeichnen wahre Werte, sind Messfehler, sind ihre "festen" Komponenten unabhängig von der Beobachtung (die sich aus einer falschen Kalibrierung der Sensoren ergeben könnten) und variieren von Beobachtung zu Beobachtung und entsprechen vielen möglichen Faktoren, die wir als zufällig behandeln.y i = y ∗ i + ˜ v i ˜ u i = ˉ u + v i ˜ v i = ˉ v + u i x ∗ i , y ∗ i ˜ u i , ˜ v i ˉ u , ˉ v u , v
Einfache lineare Regression ist und die OLS-Schätzung der Steigung ist Was wir jedoch erhalten, istβ = C o v ( x * , y * )
Nehmen wir nun an, dass nicht mit und einander korreliert sind (eine ziemlich starke Annahme, die verbessert werden kann, wenn wir mehr Rückschlüsse auf die Art der Fehler haben). Dann ist unsere Schätzung Wir können als Stichprobenvariation von schätzen . Wir müssen auch . Wenn wir ein Experiment haben, bei dem wir mehrmals beobachten können, besteht ein einfacher Ansatz darin, ] zu schätzen .v , u x∗, y∗ σ2xxiσ2ux*i& sgr;2u=E[σ2x| x∗i
Jetzt können wir unser verwenden, das beispielsweise mit der Bootstrap-Methode berechnet wurde, und es für korrigieren, so dass . β = ~ β / & lgr; σ 2 β = σ 2 ~ βσ^2β~ β^= β~/ λ^
quelle
Ich denke, die Antwort von @yshilov ist definitiv fantastisch, wenn man den Messfehler in den Fehlerterm einbezieht und das Ergebnis signifikant ableitet
quelle
Ich habe ein ähnliches Problem - hier gepostet - und noch keine bestimmte Antwort. Was ich im Moment getan habe, ist einfach eine Reihe sehr ähnlicher Xs zu sammeln und zu prüfen, ob es innerhalb dieser Zeilen eine große Variation für Y gibt. Ein anderer Ansatz könnte eine Simulation sein: Sie verwenden ein einzelnes X aus Ihrem Datensatz, replizieren jedoch die Linien, die dem systematischen Fehler des Prädiktors folgen (so etwas wie rnorm (..., 0,0.3)). Das Konfidenzintervall für die Steigung kann der systematischen Fehlerspanne ähnlich sein.
quelle
Ich würde einen parametrischen Bootstrap für die Daten empfehlen. Dies bedeutet, dass neue Datensätze generiert werden, die dem realen Datensatz ähnlich sind, sich jedoch in dem Ausmaß unterscheiden, das Ihre Unsicherheit bei jeder Beobachtung impliziert.
rnorm
Schauen Sie sich dann die Verteilung der Werte in r an.
quelle