Was ist der Unterschied zwischen der Konditionierung von Regressoren und der Behandlung als fixiert?

Manchmal nehmen wir an, dass Regressoren fest sind, dh sie sind nicht stochastisch. Ich denke , das bedeutet , dass alle unsere Prädiktoren, Parameterschätzungen usw. bedingungslos sind, oder? Darf ich überhaupt so weit gehen, dass es sich nicht mehr um Zufallsvariablen handelt?

Wenn wir andererseits akzeptieren, dass die meisten Regressoren in der Wirtschaft sagen, dass sie stochastisch sind, weil keine äußere Kraft sie mit Blick auf ein Experiment bestimmt hat. Ökonomen bedingen dann diese stochastischen Regressoren.

Wie unterscheidet sich das davon, sie als fest zu behandeln?

Ich verstehe, was Konditionierung ist. Mathematisch bedeutet dies, dass wir alle Beobachtungen und Schlussfolgerungen von dieser bestimmten Gruppe von Regressoren abhängig machen und keine Ambitionen haben zu sagen, dass Schlussfolgerungen, Parameterschätzungen, Varianzschätzungen usw. gleich gewesen wären, wenn wir eine andere Realisierung unserer Regressoren gesehen hätten (wie z der Kern in Zeitreihen, in denen jede Zeitreihe immer nur einmal gesehen wird).

Um den Unterschied zwischen festen Regressoren und der Konditionierung stochastischer Regressoren wirklich zu erfassen, frage ich mich, ob hier jemand ein Beispiel für ein Schätz- oder Inferenzverfahren kennt, das beispielsweise für feste Regressoren gilt, aber zusammenbricht, wenn sie stochastisch sind (und werden) konditioniert sein auf).

Ich freue mich auf diese Beispiele!

regression inference philosophical conditioning ancillary-statistics Hirek
quelle

Kennen Sie sich mit Modellen für Fehler in Variablen aus?

robin.datadrivers

Hey @ robin.datadrivers nein ich bin eigentlich nicht.

Hirek

Hierbei handelt es sich um Modelle, die speziell zum Anpassen von Schätzungen für Messfehler in den unabhängigen Variablen entwickelt wurden. Nicht ganz das Gleiche wie stochastische Regressoren, aber es könnte nützlich sein, einen Blick darauf zu werfen. Bei der Umfrageforschung wird im Allgemeinen häufig davon ausgegangen, dass unabhängige Variablen, die durch Umfragen erfasst wurden, Stichprobenfehler aufweisen. Es gibt wahrscheinlich Modelle, die Stichprobenfehler berücksichtigen.

robin.datadrivers

Ein anderer Gedanke, auf den ich stieß, war die Verwendung von Bayes'schen Modellen. Bayesianische Modelle können Regressoren als zufällig behandeln, indem sie eine vorherige Verteilung für sie angeben. Wenn sie als fest behandelt werden, geben Sie normalerweise eine vorherige Verteilung nur für die Parameter (Koeffizienten, Mittelwerte, Varianzen) an. Wenn jedoch Kovariaten oder Ergebnisse fehlen, geben Sie eine vorherige Verteilung für sie an. Ich weiß nicht genau, wie ich es ohne weitere Überlegungen implementieren würde, aber vielleicht gibt es eine Möglichkeit, eine vorherige Verteilung für jede unabhängige Variable anzugeben.

robin.datadrivers

Hier bin ich auf dünnem Eis, aber lassen Sie mich versuchen: Ich habe das Gefühl (bitte kommentieren!), Dass ein Hauptunterschied zwischen Statistik und Ökonometrie darin besteht, dass wir in der Statistik die Regressoren als fest betrachten, daher die Terminologie- Design-Matrix, aus der offensichtlich stammt Versuchsplanung, bei der davon ausgegangen wird, dass wir zuerst die erklärenden Variablen auswählen und dann festlegen .

Für die meisten Datensätze und Situationen ist dies jedoch eine schlechte Anpassung. Wir beobachten die erklärenden Variablen wirklich und in diesem Sinne stehen sie auf der gleichen Grundlage wie die Antwortvariablen. Beide werden durch einen zufälligen Prozess außerhalb unserer Kontrolle bestimmt. Indem wir die als "fest" betrachten, entscheiden wir uns, nicht viele Probleme zu berücksichtigen, die dies verursachen könnte. $x$

Indem wir die Regressoren als stochastisch betrachten, wie es Ökonomen tun, eröffnen wir die Möglichkeit der Modellierung, die versucht, solche Probleme zu berücksichtigen. Eine kurze Liste von Problemen, die wir dann berücksichtigen und in die Modellierung einbeziehen könnten, lautet:

Messfehler in den Regressoren
Korrelationen zwischen Regressoren und Fehlerausdrücken
verzögerte Antwort als Regressor
...

Wahrscheinlich sollte das viel häufiger gemacht werden als heute?

EDIT

Ich werde versuchen, ein Argument für die Konditionierung von Regressoren etwas formeller zu formulieren. Sei ein Zufallsvektor, und das Interesse gilt der Regression auf , wobei unter Regression die bedingte Erwartung von auf zu verstehen ist . Unter multinormalen Annahmen ist dies eine lineare Funktion, aber unsere Argumente hängen nicht davon ab. Wir beginnen mit der Faktorisierung der Gelenkdichte auf die übliche Weise aber diese Funktionen sind nicht bekannt, daher verwenden wir ein parametrisiertes Modell wobei die bedingte Verteilung und parametrisiert $(Y,X)$ $Y$ $X$ $Y$ $X$

f (y, x) = f (y ∣ x) f (x)

$f(y,x) = f(y\mid x) f(x)$

f (y, x; θ, ψ) = f_{θ} (y ∣ x) f_{ψ} (x)

$f(y,x; \theta, \psi)=f_\theta(y \mid x) f_\psi(x)$

θ

$\theta$

ψ

$\psi$ die Randverteilung von . Im normalen linearen Modell können wir aber das wird nicht angenommen. Der vollständige Parameterraum von ist , ein kartesisches Produkt, und die beiden Parameter haben keinen gemeinsamen Teil.

X

$X$

θ = (β, σ^{2})

$\theta=(\beta, \sigma^2)$

(θ, ψ)

$(\theta,\psi)$

Θ \times Ψ

$\Theta \times \Psi$

Dies kann als Faktorisierung des statistischen Experiments (oder des Datenerzeugungsprozesses DGP) interpretiert werden, wobei das erste gemäß wird und als zweiter Schritt gemäß der bedingten Dichte erzeugt wird . Beachten Sie, dass im ersten Schritt keine Kenntnisse über , die nur im zweiten Schritt eingegeben werden. Die Statistik ist eine Ergänzung zu , siehe https://en.wikipedia.org/wiki/Ancillary_statistic . $X$ $f_\psi(x)$ $Y$ $f_\theta(y \mid X=x)$ $\theta$ $X$ $\theta$

Abhängig von den Ergebnissen des ersten Schritts kann der zweite Schritt jedoch mehr oder weniger informativ über . Wenn die durch gegebene Verteilung beispielsweise eine sehr geringe Varianz aufweist, werden die beobachteten in einem kleinen Bereich konzentriert, so dass es schwieriger ist, abzuschätzen . Der erste Teil dieses zweistufigen Experiments bestimmt also die Genauigkeit, mit der geschätzt werden kann. Daher ist es natürlich, auf Rückschlüsse auf die Regressionsparameter zu setzen. Dies ist das Konditionalitätsargument, und die obige Gliederung verdeutlicht seine Annahmen. $\theta$ $f_\psi(x)$ $x$ $\theta$ $\theta$ $X=x$

In entworfenen Experimenten wird seine Annahme meistens gelten, oft mit Beobachtungsdaten nicht. Einige Beispiele für Probleme sind: Regression mit verzögerten Antworten als Prädiktoren. Die Konditionierung der Prädiktoren hängt in diesem Fall auch von der Reaktion ab! (Ich werde weitere Beispiele hinzufügen).

Ein Buch, das diese Probleme ausführlich behandelt, ist Information und Exponentialfamilien: In der statistischen Theorie von O. E. Barndorff-Nielsen. Siehe insbesondere Kapitel 4. Der Autor sagt, dass die Trennungslogik in dieser Situation jedoch selten erklärt wird , gibt jedoch die folgenden Referenzen an: RA Fisher (1956) Statistische Methoden und wissenschaftliche Inferenz und Sverdrup (1966) Der gegenwärtige Stand der Entscheidungstheorie und die Neyman-Pearson-Theorie . $\S 4.3$

kjetil b halvorsen
quelle

Was ist der Unterschied zwischen der Konditionierung von Regressoren und der Behandlung als fixiert?

Antworten: