Wann kann ich eine Zufallsvariable nicht durch ihren Mittelwert ersetzen?

10

Eine häufige Vereinfachung bei der Modellierung und Simulation besteht darin, eine Zufallsvariable durch ihren Mittelwert zu ersetzen.

Wann würde diese Vereinfachung zu einer falschen Schlussfolgerung führen?

Ankit Goyal
quelle
2
Steht "Var" für Variable oder Varianz oder Value At Risk ?
Henry
3
Es würde Spaß machen, einen Dienst zu starten, der das Netflix-Abonnement seiner Mitglieder bezahlt. Wir würden nur , wobei zufällig in der Domain wird wissen Sie, kostenlos Netflix! Später bieten wir einigen Kunden die Möglichkeit, stattdessen zu bezahlen . |x| USDmonthx[100,100]x2 USDmonth
Nat
3
Nun, in einem sehr einfachen Fall könnten wir so ziemlich alle Informationen verlieren, die uns wichtig sind, wenn wir es auf das Äußerste bringen. Betrachten Sie eine Regression von Y auf X, bei der wir sowohl Y als auch X durch ihren Mittelwert ersetzt haben. Alle Informationen über die Steigung gehen jetzt verloren.
Dason
1
Fragen Sie nach dem Ersetzen fehlender Werte oder nach dem Ersetzen einer Zufallsvariablen in einem bestimmten Kontext (z. B. Vorhersagen auf der Grundlage eines Zufallseffektmodells)?
IWS

Antworten:

20

Wenn Sie einen fehlenden Wert durch eine Punktschätzung ersetzen, ignorieren Sie die gesamte Variabilität. Daher werden Sie nicht die gesamte ursprüngliche Variabilität auf Ihr Modell übertragen. Ihre Parameterschätzungen scheinen zu niedrige zu haben . Wenn Sie schließen, werden Ihre p-Werte niedrig vorgespannt. Ihr ist zu eng. Wenn Sie eine Vorhersage machen, ist Ihr s zu eng.

Insgesamt: Sie werden sich Ihrer Schlussfolgerungen zu sicher sein.

Stephan Kolassa
quelle
2
Gute Antwort! Stellen Sie sich das so vor: Eine Zufallsvariable hat eine Verteilung. Es kann nach links und rechts verschoben werden. Ich kann bimodal sein usw. Indem Sie die Variable auf ihren Mittelwert reduzieren, entfernen Sie all diese zusätzlichen Informationen (Unsicherheit) und ersetzen eine Verteilung (Intervalle) durch eine Einzelpunktschätzung.
Elevendollar
1
Wenn Sie einen fehlenden Wert durch eine Punktschätzung ersetzen, gehen Sie auch davon aus, dass die Daten zufällig fehlen. Der Mittelwert der Zufallsvariablen entspricht möglicherweise nicht dem Mittelwert der Daten, wenn diese fehlen.
Neil G
@NeilG tut mir leid, aber wenn ein fehlender Wert durch seinen Mittelwert ersetzt wird, bedeutet dies nicht direkt, dass angenommen wird, dass die Daten zufällig fehlen. Zumal die - etwas verwirrende - Terminologie für fehlende Daten "zufällig fehlen" als Daten betrachtet, die zufällig fehlen, abhängig von anderen, aber bekannten Daten ( en.wikipedia.org/wiki/Missing_data ). IMO, die Art und Weise, wie Daten ersetzt werden, impliziert nichts über die Gründe dafür. Diese Argumentation sollte explizit gemacht werden und zu einem angemessenen Umgang mit den fehlenden Daten führen. Trotzdem stimme ich Stephans Antwort voll und ganz zu.
IWS
@IWS Es ist in Ordnung, wenn die Fehlbarkeitsindikatoren von den beobachteten Daten abhängig sind. Zufälliges Fehlen bedeutet, dass die Indikatoren für das Fehlen von den nicht beobachteten Daten abhängen. Wenn Sie die Variable durch ihren Mittelwert ersetzen, der von ihrer Beobachtung abhängig ist, entspricht dies möglicherweise nicht ihrem bedingungslosen Mittelwert - es sei denn, die Daten fehlen zufällig.
Neil G
@NeilG Meinst du nicht " völlig zufällig fehlen ", wenn du im letzten Satz deines letzten Kommentars "zufällig vermisst" schreibst? Wenn ja, sind wir uns einig, aber ich habe mich nur um die Terminologie gekümmert. (Siehe die Wiki-Seite, die ich oben in meinem Kommentar
IWS
13

Zusätzlich zu Stephans Punkten:

  • In fast jeder Anwendung, in der Sie an nichtlinearen Funktionen der Zufallsvariablen interessiert sind, führt das Ersetzen des Mittelwerts im Allgemeinen zu Verzerrungen und möglicherweise widersprüchlichen Ergebnissen. Die Durchschnittsgeschwindigkeit und die durchschnittliche Masse eines Teilchens stimmen im Allgemeinen nicht mit der durchschnittlichen kinetischen Energie überein, da die Energie mit V ^ 2 skaliert.
  • Der Mittelwert ist möglicherweise nicht einmal ein mögliches Ergebnis für die Zufallsvariable. Wenn meine möglichen Ergebnisse 0 "Patient stirbt" und 1 "Patient lebt" sind, ist es wahrscheinlich nicht hilfreich, ein Modell zu haben, das den Patienten als 0,1 "meistens tot, aber leicht lebendig" beschreibt.
Geoffrey Brent
quelle
1
Obligatorisch: youtube.com/watch?v=xbE8E1ez97M
Alexis
1
@Alexis aber natürlich!
Geoffrey Brent
0

Ein Beispiel aus dem wirklichen Leben (bezogen auf die beiden Antworten, die Sie erhalten haben) auf den Finanzmärkten. Der Preis einer Option basiert auf der Wahrscheinlichkeit, dass der Preis eines Vermögenswerts ein bestimmtes Niveau überschreitet (oder unterschreitet).

Zum Beispiel der Preis einer Option zum Kauf eines Vermögenswerts zu einem Preis von 100, wenn der erwartete Wert des Vermögenswerts 80 beträgt. Wenn Sie die Zufallsvariable (den Preis des Vermögenswerts) durch ihren Mittelwert ersetzen, erhalten Sie einen Preis von Null (as Sie würden niemals mit 100 einen Vermögenswert erreichen, der 80 kostet. Wenn Sie die Stochastizität des Vermögenswerts berücksichtigen (und das ist der richtige Weg, dies zu tun), erhalten Sie einen positiven Preis, da es eine gewisse Wahrscheinlichkeit gibt, dass der Preis des Vermögenswerts über 100 liegt.

Juan Ignacio Gil
quelle