Ich bin etwas verwirrt, wenn eine unabhängige Variable (auch Prädiktor oder Feature genannt) in einem statistischen Modell, z. B. das in linearer Regression , eine Zufallsvariable ist.
25
Ich bin etwas verwirrt, wenn eine unabhängige Variable (auch Prädiktor oder Feature genannt) in einem statistischen Modell, z. B. das in linearer Regression , eine Zufallsvariable ist.
Antworten:
Es gibt zwei gebräuchliche Formulierungen der linearen Regression. Um mich auf die Konzepte zu konzentrieren, werde ich sie etwas abstrahieren. Die mathematische Beschreibung ist etwas komplizierter als die englische. Beginnen wir also mit letzterer:
In den meisten Fällen ist die Menge der möglichen Verteilungen eine Ortsfamilie mit den Parametern und und gibt den Parameter . Das archetypische Beispiel ist die gewöhnliche Regression, bei der die Menge der Verteilungen die Normalfamilie und eine lineare Funktion der Regressoren ist.α θ β(X) α N(μ,σ) μ=β(X)
Da ich dies noch nicht mathematisch beschrieben habe, ist es immer noch eine offene Frage, auf welche Arten von mathematischen Objekten , , und beziehen - und ich glaube, das ist das Hauptproblem in diesem Thread. Obwohl man verschiedene (äquivalente) Entscheidungen treffen kann, entsprechen die meisten der folgenden Beschreibung oder Sonderfälle dieser Beschreibung.X Y β θ
Feste Regressoren. Die Regressoren werden als reelle Vektoren . Die Antwort ist eine Zufallsvariable (wobei mit einem Sigmafeld und einer Wahrscheinlichkeit ausgestattet ist). Das Modell ist eine Funktion (oder, wenn Sie möchten, eine Menge von Funktionen , die durch parametrisiert sind ). ist eine endlich dimensionale topologische (normalerweise zweite differenzierbare) Untervielfalt (oder Untervielfalt mit Grenze) der Dimension des Raums der Wahrscheinlichkeitsverteilungen.X∈Rp Y : Ω → R Ω f : R × Θ → M d R → M d Θ M d d f Θ ⊂ R d - 1 Y f ( β ( X ) , θ ) β ∈ R P * θ ∈ ≤ Y ≤ f ( β ( X ) , θY:Ω→R Ω f:R×Θ→Md R→Md Θ Md d f wird normalerweise als kontinuierlich (oder ausreichend differenzierbar) angesehen. sind die "Störparameter". Es wird angenommen , dass die Verteilung von ist aus einem unbekannten dual Vektor (die "Regressionskoeffizienten") und unbekannte . Wir können dieses schreibenΘ⊂Rd−1 Y f(β(X),θ) β∈Rp∗ θ∈Θ Y∼f(β(X),θ).
Zufällige Regressoren. Die Regressoren und die Antwort sind eine dimensionale vektorielle Zufallsvariable . Das Modell ist die gleiche Art von Objekt wie zuvor, aber jetzt gibt es die bedingte Wahrscheinlichkeitp+1 Z=(X,Y):Ω′→Rp×R f Y | X ≤ f ( β ( X ) , θ ) . Y|X∼f(β(X),θ).
Die mathematische Beschreibung ist nutzlos, ohne dass ein Rezept angibt, wie sie auf Daten angewendet werden soll. Im Fall des festen Regressors stellen wir uns so vor, als ob es vom Experimentator spezifiziert wird. Daher kann es hilfreich sein, als Produkt mit einer Produktsigmaalgebra zu betrachten. Der Experimentator bestimmt und die Natur bestimmt (etwas Unbekanntes, Abstraktes) . Im Fall des bestimmt die Natur , die Komponente der Zufallsvariablen bestimmtX Ω Rp×Ω′ X ω∈Ω′ ω∈Ω′ X πX(Z(ω)) X ( X ( ω ) , ω ) ) ∈ Ω(was "beobachtet" wird), und wir haben jetzt ein geordnetes Paar genau wie im Fall des festen Regressors.(X(ω),ω))∈Ω
Das archetypische Beispiel für die multiple lineare Regression (die ich mit der Standardnotation für die Objekte anstelle dieser allgemeineren ausdrücken werde) lautet: für eine Konstante . Da in variiert, zeichnet sein Bild eine eindimensionale Teilmenge - eine Kurve - in der zweidimensionalen Mannigfaltigkeit der Normalverteilungen auf.f(β(X),σ)=N(β(x),σ) σ∈Θ=R+ x Rp
Wenn - in welcher Weise auch immer - als und als geschätzt wird , ist der Wert von der vorhergesagte Wert von , der mit assoziiert ist - ob wird vom Experimentator kontrolliert (Fall 1) oder nur beobachtet (Fall 2). Wenn wir entweder einen Wert (Fall 1) setzen oder eine Realisierung (Fall 2) von , dann ist die Antwort die diesem ist, eine Zufallsvariable, deren Verteilung , was aber unbekannt istβ β σ σ β ( x ) Y x x x X Y X N ( β ( x ) , σ ) N ( β ( x ) , σ )β^ σ σ^ β^(x) Y x x x X Y X N(β(x),σ) geschätzt wird .N(β^(x),σ^)
quelle
Zunächst gab @whuber eine hervorragende Antwort. Ich werde es anders nehmen, vielleicht einfacher, auch mit einem Verweis auf einen Text.
MOTIVATION
Beispiel eins. Ich untersuche den Einfluss der Bestrahlung mit Elektronen auf die Härte eines Metallteils. Also nehme ich ein paar Proben des Metallteils und setze es unterschiedlichen Strahlungspegeln aus. Mein Belichtungswert ist X und fest , weil ich die von mir gewählten Werte gewählt habe. Ich kontrolliere die Bedingungen des Experiments vollständig oder versuche es zumindest. Das gleiche kann ich mit anderen Parametern wie Temperatur und Luftfeuchtigkeit tun.
Beispiel zwei. Sie untersuchen die Auswirkungen der Wirtschaftlichkeit auf die Häufigkeit von Betrugsfällen bei Kreditkartenanträgen. Sie regressieren also die Betrugsereignisse, die vom BIP abhängen. Sie kontrollieren nicht das BIP, Sie können nicht auf ein gewünschtes Niveau einstellen. Darüber hinaus möchten Sie wahrscheinlich multivariate Regressionen untersuchen, haben also andere Variablen, wie z. B. Arbeitslosigkeit, und jetzt haben Sie eine Kombination von Werten in X, die Sie beobachten , aber nicht steuern. In diesem Fall ist X zufällig .
Beispiel drei. Sie untersuchen die Wirksamkeit neuer Pestizide im Feld, dh nicht unter Laborbedingungen, sondern auf dem tatsächlichen Versuchsfeld. In diesem Fall können Sie etwas steuern, z. B. die Menge des einzusetzenden Pestizids. Sie kontrollieren jedoch nicht alles, z. B. das Wetter oder die Bodenverhältnisse. Ok, Sie können den Boden bis zu einem gewissen Grad kontrollieren, aber nicht vollständig. Dies ist ein Zwischenfall, in dem einige Bedingungen beobachtet und einige Bedingungen kontrolliert werden . Es gibt dieses gesamte Forschungsgebiet namens experimentelles Design , das sich wirklich auf diesen dritten Fall konzentriert, in dem die Agrarforschung eine der größten Anwendungen davon ist.
MATHEMATIK
Hier kommt der mathematische Teil einer Antwort. Es gibt eine Reihe von Annahmen, die in der Regel bei der Untersuchung der linearen Regression als Gauß-Markov-Bedingungen dargestellt werden. Sie sind sehr theoretisch und es stört niemanden zu beweisen, dass sie in irgendeiner praktischen Situation bestehen. Sie sind jedoch sehr nützlich, um die Einschränkungen der gewöhnlichen Methode der kleinsten Quadrate (OLS) zu verstehen.
Der Satz von Annahmen ist also für zufälliges und festes X unterschiedlich, was in etwa Beobachtungs- und Versuchsstudien entspricht. Grob gesagt, denn wie ich im dritten Beispiel gezeigt habe, bewegen wir uns manchmal wirklich zwischen den Extremen. Ich fand, dass der Abschnitt "Gauß-Markov" in der Encyclopedia of Research Design von Salkind ein guter Anfang ist. Er ist in Google Books verfügbar .
Für das übliche Regressionsmodell gelten folgende abweichende Annahmen für das feste Design :Y=Xβ+ε
gegen die gleichen Annahmen in der zufälligen Gestaltung:
Wie Sie sehen, besteht der Unterschied in der Konditionierung der Annahmen auf der Entwurfsmatrix für den Zufallsentwurf. Konditionierung macht diese stärkeren Annahmen. Zum Beispiel sagen wir nicht nur, wie beim festen Entwurf, dass die Fehler den Mittelwert Null haben. in zufälliger Anordnung sagen wir auch, dass sie nicht von X, Kovariaten, abhängig sind.
quelle
In der Statistik ist eine Zufallsvariable eine Größe, die in irgendeiner Weise zufällig variiert. Eine gute Diskussion finden Sie in diesem ausgezeichneten CV-Thread: Was ist mit einer „Zufallsvariablen“ gemeint?
In einem Regressionsmodell wird angenommen, dass die Prädiktorvariablen (X-Variablen, erklärende Variablen, Kovariaten usw.) fest und bekannt sind . Sie werden nicht als zufällig angenommen. Es wird angenommen, dass die gesamte Zufälligkeit im Modell im Fehlerterm liegt. Betrachten Sie ein einfaches lineares Regressionsmodell als standardformuliert:
Der Fehlerterm ε ist eine Zufallsvariable und die Quelle der Zufälligkeit im Modell. Aufgrund des Fehlerterms ist Y ebenfalls eine Zufallsvariable. Eswird jedoch nicht angenommen, dass X eine Zufallsvariable ist. (Natürlich kann es sichin der Realitätum eine Zufallsvariable handeln, dies wird jedoch im Modell nicht angenommen oder reflektiert.)
quelle
Ich bin mir nicht sicher, ob ich die Frage verstehe, aber wenn Sie nur fragen: "Muss eine unabhängige Variable immer eine Zufallsvariable sein?", Lautet die Antwort "Nein".
Eine unabhängige Variable ist eine Variable, von der angenommen wird, dass sie mit der abhängigen Variablen korreliert. Ob dies der Fall ist, testen Sie anschließend durch Modellierung (vermutlich Regressionsanalyse).
Es gibt hier viele Komplikationen und "Wenn, Aber und Aber". Daher würde ich vorschlagen, eine Kopie eines grundlegenden Ökonometrie- oder Statistikbuchs zu erhalten, das die Regressionsanalyse behandelt und es gründlich liest, oder die Klassennotizen aus einer grundlegenden Statistik / Ökonometrie zu erhalten natürlich online wenn möglich.
quelle