Was sind die Unterschiede zwischen stochastischen und festen Regressoren im linearen Regressionsmodell?

7

Wenn wir stochastische Regressoren haben, zeichnen wir zufällige Paare für eine Gruppe von , der sogenannten Zufallsstichprobe, aus einer festen, aber unbekannten Wahrscheinlichkeitsverteilung . Theoretisch erlaubt uns die Zufallsstichprobe, einige Parameter der Verteilung kennenzulernen oder abzuschätzen . $(y_i,\vec{x}_i)$ $i$ $(y,\vec{x})$ $(y,\vec{x})$

Wenn wir feste Regressoren haben, können wir theoretisch nur bestimmte Parameter über bedingte Verteilungen ableiten , für wobei jedes keine Zufallsvariable ist oder fest ist. Insbesondere ermöglichen stochastische Regressoren die Schätzung einiger Parameter der gesamten Verteilung von während feste Regressoren nur bestimmte Parameter der bedingten Verteilungen schätzen lassen . $k$ $y\mid x_i$ $i=1,2,\dots,k$ $x_i$ $(y,\vec{x})$ $(y,\vec{x_i})\mid x_i$

Die Folge ist, dass feste Regressoren nicht auf die gesamte Verteilung verallgemeinert werden können. Wenn wir zum Beispiel nur in der Stichprobe als feste Regressoren hatten, können wir nichts über oder , aber stochastische Regressoren können. $x=1,2,3,\dots,99$ $100$ $99.9$

Dies ist eigentlich eine ziemlich dunkle Frage, da viele Lehrbücher nur über die Unterschiede in der mathematischen Ableitung sprechen, aber vermeiden, die Unterschiede in dem Ausmaß zu diskutieren, in dem sie theoretisch verallgemeinert werden können. Ich habe meinen Statistikprofessor um Hilfe gebeten, aber er kennt die Antwort nicht.

regression distributions conditional-probability stochastic-processes likelihood Kun
quelle

Was ist die eigentliche Frage?

Jake Westfall

@ JakeWestfall Ich bitte nur um Bestätigung. Ich bin mir nicht sicher, ob ich dieses Recht hatte

Kun

Ich denke, dieses Dokument bestätigt Ihre Gedanken. web.pdx.edu/~newsomj/mlrclass/ho_randfixd.pdf

Cagdas Ozgenc

3

Mein Vorschlag ist, die Gewohnheit zu übernehmen, die "festen" Regressoren als "deterministisch" zu bezeichnen. Damit werden zwei Dinge erreicht: Erstens wird das nicht seltene Missverständnis beseitigt, dass "fest" "unveränderlich" bedeutet. Zweitens steht es klar im Gegensatz zu "stochastisch" und sagt uns, dass die Regressoren entschieden werden (daher die Terminologie "Design Matrix", die aus Bereichen stammt, in denen die Regressoren f ... deterministisch sind).

Wenn Regressoren deterministisch sind, haben sie keine Verteilung, also keine Momente, wie zum Beispiel den erwarteten Wert. Das einzige stochastische Element in der Stichprobe liegt im Fehlerterm (und damit in der abhängigen Variablen).

Dies hat die grundlegende Implikation, dass eine Stichprobe mit nur einem und variierendem deterministischen Regressor keine identisch verteilte Stichprobe mehr ist :

E (y_{i}) = b E (x_{i}) + E (u_{i}) ⟹ E (y_{i}) = b x_{i}

$E(y_i) = bE(x_i) + E(u_i) \implies E(y_i) = bx_i$

und da die deterministischen variieren, folgt, dass die abhängige Variable nicht für alle den gleichen erwarteten Wert hat . Mit anderen Worten, es gibt nicht eine Verteilung, jedes hat seine eigene (möglicherweise zur selben Familie gehörend, aber mit unterschiedlichen Parametern). $x_i$ $i$ $y_i$

Sie sehen also, es geht nicht um bedingte Momente, die Implikationen deterministischer Regressoren beziehen sich auf die bedingungslosen Momente. Zum Beispiel ergibt die Mittelung der abhängigen Variablen hier nichts Sinnvolles, außer für beschreibende Statistiken für die Stichprobe.

Kehren Sie das um, um die Implikation zu sehen: Wenn die aus einer Population identischer Zufallsvariablen stammen, in welchem Sinne und mit welcher Gültigkeit werden wir sie mit deterministischen Regressoren verknüpfen? Wir können immer eine Reihe von Zahlen auf eine Matrix anderer Zahlen zurückführen: Wenn wir gewöhnliche kleinste Quadrate verwenden, werden wir die zugehörige orthogonale Projektion schätzen. Dies hat jedoch keine statistische Bedeutung. $y_i$

Beachten Sie auch, dass . Bedeutet dies, dass von " ? Nein, dies wäre die Interpretation, wenn stochastisch wäre. Hier zeigt es uns, dass es keinen Unterschied zwischen bedingungslosen und bedingten Momenten gibt, wenn deterministische Regressoren beteiligt sind. $E(y_i \mid x_i) = E(y_i)$ $y_i$ $x_i$ $x_i$

Wir können mit deterministischen Regressoren sicherlich vorhersagen . ist ein gemeinsames Merkmal aller , und wir können es mit deterministischen Regressoren wiederherstellen. Dann können wir einen Regressor mit einem Wert außerhalb der Stichprobe nehmen und den Wert des entsprechenden vorhersagen . $b$ $y_i$ $y$

Alecos Papadopoulos
quelle

@cowboyTrader Ich denke, weil ich den wesentlichen Unterschied zwischen stochastischen und deterministischen Regressoren so deutlich wie möglich machen wollte. Indem ich einem deterministischen Regressor eine "Verteilung" zuordne, selbst wenn es Dirac Delta ist, kann ich die mathematisch geneigten glücklich machen, aber ich kann auch die weniger verwirren.

Alecos Papadopoulos

1

Ich glaube nicht, dass Sie die feste Regression richtig beschreiben. In fixeddiesem Zusammenhang bedeutet dies, dass Sie jede Ebene auswählen können, für die Sie sich entscheiden.

Angenommen, Sie untersuchen Website-Ausfälle als Funktion der Parameter des Webservers und der Auslastung. Betrachten Sie zwei verschiedene Ansätze:

ein. Sie tun dies im Lasttestlabor Ihres Unternehmens (in vitro).
b. Sie tun dies auf dem Live-Produktionsserver (in vivo)

A. Im Lasttestlabor können Sie eine beliebige Laststufe sowie alle gewünschten Parameter des Webservers festlegen. Sie können es mit 1.000 gleichzeitigen Clients und der Worker-Pool-Größe 100 sowie 100 GB Speicher laden. oder Sie könnten nur 10 gleichzeitige Clients, 10 Threads und 1 GB usw. haben.

In diesem Fall besteht Ihre fixedEntwurfsmatrix aus vier Spalten: dem Achsenabschnitt und drei Variablen. Es ist behoben, weil die variablen Ebenen nicht zufällig sind. Sie kennen die genauen Werte jeder Variablen und Sie können chosesie nach Ihren Wünschen verwenden.

B. Auf dem Live-Produktionsserver können Sie wahrscheinlich nur einige Parameter steuern und die Last sicherlich nicht steuern: Clients kommen und gehen, wie sie möchten. Zumindest die Last wird also stochastisch sein. Auch die Parameter sind nicht vollständig festgelegt: Schließlich soll der Server weiterhin ausgeführt werden und Clients bedienen, während Sie ihn testen. Möglicherweise können Sie jedoch in einigen Bereichen mit den Speicher- und Thread-Pool-Einstellungen spielen. Im besten Fall können Sie also nur zwei Variablen aus drei echten Regressoren festlegen.

In diesem Fall haben Sie die zufällige Entwurfsmatrix. Sie können nur die Last beobachten, die hier der Regressor ist. Dies ist eine Zufallsvariable.

Es ist unnötig zu erwähnen, dass die Analyse viel einfacher und robuster ist, wenn Sie eine feste Entwurfsmatrix haben.

Aksakal
quelle

0

Was ist Regression überhaupt? Siehe Definition und Abgrenzung des Regressionsmodells Es gibt einige Meinungsverschiedenheiten über dieses sehr breite Konzept, aber hauptsächlich geht es um die Modellierung der bedingten Verteilung (oder eines Aspekts davon) von $Y$ einige Prädiktoren gegeben $x$ .

Also, vorausgesetzt, wir werden konditionieren $x$ , warum sollte es überhaupt wichtig sein, wenn $x$ war am Anfang zufällig oder deterministisch? Siehe die ähnliche Frage Was ist der Unterschied zwischen der Konditionierung von Regressoren und der Behandlung als fixiert? .

Ich denke dann, dass diese zufällige Regressorsache so ein Chaos zu sein scheint, weil es wirklich ein vielköpfiges Monster ist (ähnlich wie beim Sozialismus schneidet man einen Kopf ab und ein anderer wächst heraus). Also müssen wir uns ansehen, was die Gründe für die Modellierung des sein könnten Regressoren als zufällig. Ich versuche eine kurze Liste, die sicherlich nicht erschöpfend ist:

Messfehler in den Regressoren $x$ . Dies könnte durchaus auch bei entworfenen Experimenten mit deterministischen Regressoren auftreten, daher scheint mir dies ein separates Problem zu sein. Siehe die TagsFehler in Variablen oder Messfehler.
Probleme bei der Datenerfassung, die Inferenzprobleme verursachen, wie Regressoren, die mit dem Fehlerterm korrelieren, separate Regressionen mit korrelierten Fehlertermen und viele andere Probleme, die in untersucht wurden Ökonometrie und kausale Folgerung, die nicht mit deterministischen Regressoren modelliert werden können.
Modelle mit verzögerten Werten der Antwort als Prädiktor. Dies geschieht oft mit Regressoren, die als deterministisch behandelt werden, was mir seltsam erscheint. Dann $Y$ wird in einem Teil des Modells als zufällig und in einem anderen Teil als deterministisch behandelt ...

Es scheint mir, dass so viele Fälle am besten allein behandelt werden und nicht unter der sehr breiten Bezeichnung als zufällige Regressoren.

kjetil b halvorsen
quelle

Was sind die Unterschiede zwischen stochastischen und festen Regressoren im linearen Regressionsmodell?

Antworten: