Wenn wir den Standardfehler eines Regressionskoeffizienten berechnen, erklärst wir nicht für die Zufälligkeit in der Design - Matrix . In OLS wir zum Beispiel berechnen als
Wenn die als zufällig betrachtet würde, würde das Gesetz der Gesamtvarianz in gewissem Sinne auch den zusätzlichen Beitrag der Varianz von verlangen. dh
Wenn der OLS-Schätzer wirklich unvoreingenommen ist, verschwindet der erste Term, da die Erwartung eine Konstante ist. Der zweite Term wird tatsächlich: .
Wenn ein parametrisches Modell für bekannt ist, warum ersetzen wir durch die tatsächliche Kovarianzschätzung? Wenn beispielsweise eine randomisierte Behandlungszuordnung ist, sollte die Binomialvarianz eine effizientere Schätzung sein?
Warum erwägen wir nicht, flexible nichtparametrische Modelle zu verwenden, um die möglichen Verzerrungsquellen in der OLS-Schätzung abzuschätzen und die Empfindlichkeit für das Design (dh die Verteilung von ) im ersten Gesetz des Gesamtvarianzterms ) richtig zu berücksichtigen ? ( & bgr; | X ) ) ?
Antworten:
Ihre Frage (plus weitere Kommentare in den Kommentaren) scheint hauptsächlich für den Fall von Interesse zu sein, dass wir eine randomisierte kontrollierte Studie haben, in der der Forscher eine oder mehrere der erklärenden Variablen basierend auf einem Randomisierungsdesign zufällig zuweist. In diesem Zusammenhang möchten Sie wissen, warum wir ein Modell verwenden, das die erklärenden Variablen als bekannte Konstanten behandelt, anstatt sie als Zufallsvariablen aus der durch die Randomisierung auferlegten Stichprobenverteilung zu behandeln. (Ihre Frage ist weiter gefasst, aber dies scheint der Hauptinteresse des Kommentars zu sein, daher werde ich mich mit dieser Frage befassen.)
Der Grund, warum wir in diesem Zusammenhang von den erklärenden Variablen abhängig sind, ist, dass wir bei einem Regressionsproblem für eine RCT immer noch an der bedingten Verteilung der Antwortvariablen angesichts der Prädiktoren interessiert sind . In der Tat sind wir in einer RCT daran interessiert, die kausalen Auswirkungen einer erklärenden VariablenX auf die Antwortvariable Y zu bestimmen, die wir durch Rückschluss auf die bedingte Verteilung bestimmen werden (vorbehaltlich einiger Protokolle, um Verwechslungen zu vermeiden). Die Randomisierung wird auferlegt, um die Abhängigkeit zwischen der erklärenden Variablen X und möglichen Störgrößen zu lösen (dh Hintertürassoziationen zu verhindern). †† Das Inferenzobjekt des Problems ist jedoch immer noch die bedingte Verteilung der Antwortvariablen angesichts der erklärenden Variablen. Daher ist es immer noch sinnvoll, die Parameter in dieser bedingten Verteilung unter Verwendung von Schätzmethoden zu schätzen, die gute Eigenschaften zum Ableiten der bedingten Verteilung aufweisen .
Dies ist der Normalfall, der für eine RCT unter Verwendung von Regressionstechniken gilt. Natürlich gibt es einige Situationen, in denen wir andere Interessen haben, und wir möchten möglicherweise tatsächlich Unsicherheit über die erklärenden Variablen einbeziehen. Das Einbeziehen von Unsicherheit in die erklärenden Variablen tritt im Allgemeinen in zwei Fällen auf:
(1) Wenn wir über die Regressionsanalyse hinaus in die multivariate Analyse gehen, sind wir an der gemeinsamen Verteilung der Erklärungs- und Antwortvariablen interessiert und nicht nur an der bedingten Verteilung der letzteren angesichts der ersteren. Es kann Anwendungen geben, bei denen dies unser Interesse ist. Daher würden wir über die Regressionsanalyse hinausgehen und Informationen über die Verteilung der erklärenden Variablen einbeziehen.
(2) In einigen Regressionsanwendungen liegt unser Interesse an der bedingten Verteilung der Antwortvariablen, die von einer zugrunde liegenden nicht beobachteten erklärenden Variablen abhängig ist, wobei wir davon ausgehen, dass die beobachteten erklärenden Variablen fehlerbehaftet waren ("Fehler in Variablen"). In diesem Fall berücksichtigen wir die Unsicherheit über "Fehler in Variablen". Der Grund dafür ist, dass unser Interesse in diesen Fällen in der bedingten Verteilung liegt, die von einer nicht beobachteten zugrunde liegenden Variablen abhängig ist .
Beachten Sie, dass diese beiden Fälle mathematisch komplizierter sind als die Regressionsanalyse. Wenn wir also mit der Regressionsanalyse durchkommen können, ist dies im Allgemeinen vorzuziehen. In den meisten Anwendungen der Regressionsanalyse besteht das Ziel in jedem Fall darin, angesichts der beobachtbaren erklärenden Variablen einen Rückschluss auf die bedingte Verteilung der Antwort zu ziehen, sodass diese Verallgemeinerungen unnötig werden.
quelle
Der Titel "Fehler in Variablen" und der Inhalt der Frage scheinen unterschiedlich zu sein, da er fragt, warum wir die Variation in X nicht berücksichtigenX bei der Modellierung der bedingten Antwort, dh der Inferenz für Regressionsparameter, nicht berücksichtigen. Diese beiden Themen scheinen mir orthogonal zu sein, deshalb antworte ich hier auf den Inhalt.
Ich habe zuvor eine ähnliche Frage beantwortet: Was ist der Unterschied zwischen der Konditionierung von Regressoren und der Behandlung als feststehend? , also werde ich hier einen Teil meiner Antwort dort kopieren:
Ich werde versuchen, ein Argument für die Konditionierung von Regressoren etwas formeller zu formulieren. Sei(Y,X) ein Zufallsvektor, und das Interesse gilt der Regression Y auf X , wobei unter Regression die bedingte Erwartung von Y auf X zu verstehen ist . Unter multinormalen Annahmen ist dies eine lineare Funktion, aber unsere Argumente hängen nicht davon ab. Wir beginnen mit der üblichen Berücksichtigung der Gelenkdichte
f(y,x)=f(y∣x)f(x) f(y,x;θ,ψ)=fθ(y∣x)fψ(x) θ ψ X θ=(β,σ2) (θ,ψ) Θ×Ψ , a Cartesian product, and the two parameters have no part in common.
This can be interpreted as a factorization of the statistical experiment, (or of the data generation process, DGP), firstX is generated according to fψ(x) , and as a second step, Y is generated according to the conditional density fθ(y∣X=x) . Note that the first step does not use any knowledge about θ , that enters only in the second step. The statistic X is ancillary for θ , see https://en.wikipedia.org/wiki/Ancillary_statistic.
But, depending on the results of the first step, the second step could be more or less informative aboutθ . If the distribution given by fψ(x) have very low variance, say, the observed x 's will be concentrated in a small region, so it will be more difficult to estimate θ . So, the first part of this two-step experiment determines the precision with which θ can be estimated. Therefore it is natural to condition on X=x in inference about the regression parameters. That is the conditionality argument, and the outline above makes clear its assumptions.
In designed experiments its assumption will mostly hold, often with observational data not. Some examples of problems will be: regression with lagged responses as predictors. Conditioning on the predictors in this case will also condition on the response! (I will add more examples).
One book which discusses this problems in a lot of detail is Information and exponential families: In statistical theory by O. E Barndorff-Nielsen. See especially chapter 4. The author says the separation logic in this situation is however seldom explicated but gives the following references: R A Fisher (1956) Statistical Methods and Scientific Inference§4.3 and Sverdrup (1966) The present state of the decision theory and the Neyman-Pearson theory.
The factorization used here is somewhat similar in spirit to the factorization theorem of sufficient statistics. If focus is on the regression parametersθ , and the distribution of X do not depend on θ , then how could the distribution of (or variation in) X contain information about θ ?
This separation argument is helpful also because it points to the cases where it cannot be used, for instance regression with lagged responses as predictors.
quelle