Ich habe eine naive Frage zur Entscheidungstheorie. Wir berechnen die Wahrscheinlichkeiten verschiedener Ergebnisse unter Annahme bestimmter Entscheidungen und weisen jedem Ergebnis Dienstprogramme oder Kosten zu. Wir finden die optimale Entscheidung, indem wir die mit dem größten erwarteten Nutzen finden.
Aber warum sollten wir so argumentieren? Mit jeder Entscheidung ist tatsächlich eine Verteilung des Nutzens verbunden. Warum vergleichen wir die Verteilungen von Dienstprogrammen für verschiedene Auswahlmöglichkeiten nur anhand einer einzigen zusammenfassenden Statistik? Und warum wählen wir eher den Mittelwert als den Modus oder den Median usw.?
Ich kann mir Fälle vorstellen, in denen zwei Auswahlmöglichkeiten identische erwartete Dienstprogramme ergeben, deren Verteilung für das Dienstprogramm jedoch sehr unterschiedlich ist. Sicherlich sollten Entscheidungen auf der Grundlage der gesamten Verteilung getroffen werden und nicht nur der Erwartung?
Wollen wir damit sagen, dass für jedes Schema zur Entscheidungsfindung unter Verwendung der gesamten Verteilung eine Nutzenfunktion existieren muss, für die der maximal erwartete Nutzen identische Ergebnisse liefern würde? Wenn ja, sollten wir Dienstprogramme nicht trotzdem originalgetreu konstruieren und eine Entscheidungsregel auswählen, wie wir es wünschen? Wir können unsere treuen Dienstprogramme später in solche umwandeln, die mit maximaler Erwartung identische Ergebnisse liefern.
Antworten:
Das Von Neumann-Morgenstern-Utility-Theorem impliziert, dass unter einigen vernünftigen Annahmen (z. B. der Tatsache, dass Sie eine Reihe von Szenarien vom besten zum schlechtesten ordnen können, wobei jedes Szenario stochastisch zu einem bestimmten Ergebnis aufgelöst wird) jeweils eine Funktionsabbildung existiert mögliches Ergebnis zu einem realen Wert (dem "Dienstprogramm"), so dass Sie immer das Szenario mit dem höheren erwarteten Dienstprogramm bevorzugen. Daher ist es sinnvoll, immer die Auswahl zu treffen, die den erwarteten Nutzen maximiert.
Das VNM-Dienstprogramm berücksichtigt dies, sodass das Szenario mit dem höchsten erwarteten Dienstprogramm am meisten bevorzugt wird , selbst wenn Sie risikoavers sind.
Ich würde eher sagen, dass die Strategie, den Nutzen bestimmter Ergebnisse durch Vermutungen oder einige menschliche Heuristiken zu approximieren, zu unvollständigen Entscheidungen führt, da sich die resultierende Nutzenfunktion vom idealen VNM-Nutzen unterscheidet. Wenn Sie Dienstprogramme "originalgetreu" erstellen, wird das Problem gelöst und so ausgeführt, dass die Maximierung des Dienstprogramms die richtige Antwort liefert.
quelle
Meine Antwort kann Sie überraschen. Ich werde es innerhalb der erwarteten Nützlichkeitstheorie und darüber hinaus beantworten.
Über den erwarteten Nutzen hinaus
Die erwartete Nützlichkeitstheorie selbst ist nicht die einzige Möglichkeit, Entscheidungen zu treffen. Ob Sie die Gebrauchstheorie verwenden oder nicht, hängt von den Anwendungen ab. Beispielsweise verwenden einige Berater in der Vermögensverwaltung die Aussichtstheorie anstelle des erwarteten Nutzens. Kahneman erhielt für seine Arbeit an dieser Theorie den Nobelpreis für Wirtschaftswissenschaften. Es wurden Verhaltensaspekte der Entscheidungsfindung in der Wirtschaft angesprochen, die über die erwartete Nützlichkeitstheorie hinausgingen.
In einem traditionellen Portfolio-Auswahlansatz versuchen Vermögensberater praktisch, die Nutzenfunktion des Kunden zu konstruieren und sie dann zu verwenden, um das beste Portfolio an der effizienten Grenze auszuwählen. Im prospekttheoretischen Ansatz versuchen die Berater, die Wertfunktion anstelle der Nutzenfunktion zu konstruieren und erstere zu verwenden, um das beste Portfolio auszuwählen.
Innerhalb der erwarteten Nützlichkeitstheorie
Jetzt wird auch in der traditionellen Gebrauchstheorie dafür gesorgt. Zum Beispiel haben sie eine Vorstellung von Risikoaversion und stochastischer Dominanz . Eine risikoaverse Person wird die Entscheidung nicht nur auf der Grundlage des erwarteten Nutzens treffen. Das wäre eine risikoneutrale Person . Risikoaverse Menschen bevorzugen Entscheidungen mit geringerer Entropie, wenn sie beispielsweise Entscheidungen mit demselben erwarteten Nutzen treffen. Dies nennt man stochastische Dominanz.
Die Analogie würde zwei nromale Verteilungen mit dem gleichen Mittelwert, aber unterschiedlichen Dispersionen betrachten. Ja, dies sind unterschiedliche Verteilungen, und die Dispersion ist in vielen Anwendungen von Bedeutung. Dies mindert jedoch nicht die Wichtigkeit, den Mittelwert zu kennen. Um die Normalverteilung vollständig zu definieren, müssen Sie sowohl den Mittelwert als auch die Streuung kennen. Der Mittelwert selbst informiert uns sehr über die Verteilung. Ebenso ist das erwartete Dienstprogramm nicht das einzige, was Sie jemals über die Dienstprogrammfunktion des Agenten wissen müssen, aber es enthält dennoch viele Informationen.
quelle
In hohem Maße handelt es sich tatsächlich um eine Frage zum erwarteten Wert, die bereits an anderer Stelle erörtert wurde . Sie haben Recht, dass wir an den gesamten Verteilungen interessiert sind und sein sollten , aber es ist schwierig , ganze Verteilungen zu vergleichen, und der Vergleich von Einzelpunktzusammenfassungen ist viel einfacher. Ja, Sie können andere Einzelpunktzusammenfassungen vergleichen, und in vielen Fällen würden Sie sie vergleichen, aber der erwartete Wert hat mehrere nette Eigenschaften, die ihn zu einer sehr guten Einzelpunktzusammenfassung für eine Zufallsvariable machen. Der erwartete Wert gewichtet die möglichen Ergebnisse nach ihren Wahrscheinlichkeitenund sagt Ihnen, was Sie auf lange Sicht "erwarten" könnten. Wenn Sie gegen das Casino spielen, ist der erwartete Wert der möglichen Gewinne und Verluste für Sie negativ, sodass Sie auf lange Sicht nicht erwarten sollten, dass er Sie reich macht.
Lassen Sie mich Ihnen ein sehr spieltheoretisch nicht strenges Beispiel geben. Stellen Sie sich vor, Sie erwägen, russisches Roulette zu spielen, und schießen mit einem Sechs-Schuss-Revolver mit nur einer Kugel in der Kammer einen Schuss auf sich. Wenn nichts passiert, gewinnen Sie 1000 $ , sonst sterben Sie. Das Ergebnis des Modus ist, dass Sie 1000 $ gewinnen , genau wie der Median. Der erwartete Wert von diesem Spiel ist 5/6× 1000 Dollar+ 1/6 × Tod, würdest du darüber nachdenken zu spielen? Natürlich würden Sie im spieltheoretischen Ansatz überlegen, was der tatsächliche Nutzen des gewonnenen Geldes und was der Preis für das Sterben ist, aber ich denke, ohne tiefer zu gehen, sollten Sie den Punkt der Verwendung des erwarteten Werts als Zusammenfassung eines einzelnen Punktes hier sehen .
Der erwartete Wert (und der Mittelwert, sein Schätzer) reagieren empfindlich auf Ausreißer, und dies ist einer der Gründe, warum er so häufig verwendet wird. Würden Sie die Konkurrenz überhaupt in Betracht ziehen, wenn der Preis 1 USD betragen würde? Was ist mit 1 000 000 000 USD ? Beachten Sie, dass Sie sich nicht darum kümmern sollten, wenn Sie den Modus oder Median als Kriterium für das "mögliche" Ergebnis verwendet haben, da in jedem Fall angegeben wird, dass Sie "im Durchschnitt" gewinnen. Würden Sie Ihre Meinung ändern, wenn Sie mit leeren Kugeln schießen würden? Beachten Sie, dass weder der Modus noch der Median nicht nicht ändern , wenn Sie Rohlinge verwenden, da sie kümmern sich nicht über die extreme Ergebnisse, doch der erwartete Wert ändert sich dramatisch * . Der erwartete Wert (und der Mittelwert) berücksichtigen alle die möglichen Ergebnisse und gewichten sie nach Wahrscheinlichkeiten, das ist der Grund für die Verwendung im Entscheidungsszenario.
Ein realistischeres Beispiel wäre die Lotterie mit 1000 Coupons und nur einem einzigen Gewinncoupon. Angenommen, der Preis beträgt 1000 US-Dollar , der erwartete Wert also 999/1000× $ 0+ 1/1000 × $ 1000 = $ 1, also ist ein Gutschein keinen Kauf wert, wenn sein Preis nicht unter $ 1 liegt. Dies bedeutet, dass Sie, wenn Sie das Spiel viele, viele Male gespielt haben, einige Male gewinnen und viele Male verlieren und das Gesamtguthaben verlieren würden Das investierte und gewonnene Geld würde ungefähr 1 USD betragen. Wenn sich der Preis auf 10 000 USD ändern würde , ohne den Couponpreis zu ändern, würde sich die Geschichte ändern, da sich der erwartete Wert auf 10 USD ändern würde . Beachten Sie, dass sich der Modus erneut ändert oder Median sind in beiden Fällen $ 0, daher sind sie unempfindlich gegenüber den Auszahlungen. Dies bedeutet nicht, dass sie nutzlos sind, aber es zeigt, dass der erwartete Wert das ist, was wir normalerweise hier brauchen.
* - Um ehrlich zu sein, ist dieses Beispiel irreführend, da Sie sich mit Leerzeichen umbringen können. Nehmen wir jedoch an, Sie haben eine Art hypothetischer "sicherer" Leerzeichen.
quelle
In ihrer Antwort konzentrierte sich @shimao auf das von Neumann-Morgenstern-Utility-Theorem . Der Satz liegt in der Tat im Zentrum dessen, warum wir den erwarteten Nutzen betrachten, und nicht irgendeine andere zusammenfassende Statistik des Nutzens oder in der Tat die gesamte Verteilung des Nutzens.
Der Satz zeigt anhand einiger Axiome, dass ein Entscheidungsträger angesichts der Unsicherheit die Vorgehensweise wählen sollte, die den erwarteten Nutzen maximiert. Ich denke, das relevante Axiom für meine Frage ist das Axiom der Kontinuität.
Wir ordnen drei mögliche Entscheidungen in der Reihenfolge, sagen wir:L ⪯ M.⪯ N. , wo A ⪯ B. zeigt an, dass ein Ergebnis EIN ist schlechter als oder nicht besser als das Ergebnis B. . Das Axiom der Kontinuität besagt, dass es eine Wahrscheinlichkeit geben muss,p , so dass die Option zu nehmen L. mit Wahrscheinlichkeit p und Option N. mit Wahrscheinlichkeit 1 - p muss genauso gut sein wie nur eine Option zu wählen M. dh es gibt eine p so dass
p L + ( 1 - p ) N.∼ M.
Ohne den vollständigen Beweis zu wiederholen, ist es klar, dass dies darauf hindeutet, warum die Varianz (oder andere weitere Momente) des Dienstprogramms keine Rolle spielt. Es spielt keine Rolle, wie extrem die Ergebnisse sindL. und N. Unser Axiom ist, dass es eine solche Wahrscheinlichkeit geben muss, dass die Wahl getroffen wird L. mit Wahrscheinlichkeit p und N. Ansonsten ist es genauso eine gute Wahl wie daran festzuhalten M. . Dies trotz der Tatsache, dass erstere eine große Abweichung im Nutzen haben könnten.
quelle
Es gibt einige geringfügige Sprachfehler, die zu Verwirrung bei Ihrer Frage führen.
Dienstprogramme haben keine Verteilung. Ergebnisse haben eine Verteilung und über das Ergebnis haben Aktionen in einigen Fällen eine Verteilung. Der Nutzen ist deterministisch. Wenn es zufällig wäre, würden Sie Ihre Gefühle in Bezug auf ein Ergebnis ständig erschrecken. Zum Beispiel könnten Sie die Erfahrung machen, "Wow, meine Beine bei einem Autounfall gequetscht zu haben, war eine überraschend gute Erfahrung!" Was ungewiss ist, ist das Ergebnis einer Aktion.
Wenn wir entartete Fälle ausschließen, in denen die Integrale divergieren und keine Lösung existiert, kann ich Ihnen auch einen Fall zeigen, in dem der Median den erwarteten Nutzen maximiert.
Beachten Sie, dassU.( δ( x ) , μ ) = - L ( δ( x ) , μ ) . Wir finden es wichtig, eine Regel zu erstellen, die wir mit unserem Dienstprogramm bewerten und die wir finden werdenμ mit einiger Konsistenz.
Wir wollen lösen:MindestδL (δ, μ ) = | δ( x ) - μ | vorbehaltlich f( x | μ ) =1π11 + ( x - μ)2.
Wenn wir das annehmenPr ( μ ) ≤ 1 , dann ist das Risiko ∫∞- ∞| δ( x ) - μ |∏i = 1n1π11 + (xich- μ)2d x
und das integrierte Risiko minimiert wann∫∞- ∞∫∞- ∞| δ( x ) - μ |∏i = 1n1π11 + (xich- μ)2d x d μ ist auf einem Minimum. Es minimiert wannδ( x ) ist der Median.
Sie maximieren den erwarteten Nutzen, wenn Sie den Median der Daten finden. Sie können keinen Mittelwert für findenf( x | μ ) =1π11 + ( x - μ)2, da es nicht existiert. Weil es keinen Mittelwert hat, hat es auch keine Varianz. Da es keine Varianz gibt, können Sie den quadratischen Verlust nicht minimieren. Folglich würde der quadratische Nutzen, wenn er der wahre Fall wäre, durch irgendeinen Wert in den reellen Zahlen minimiert.
Wenn Sie die entarteten Fälle wie im obigen Fall ignorieren, hat das erwartete Dienstprogramm einen unerwarteten Vorteil gegenüber anderen Methoden. Wenn Sie alle möglichen Entscheidungsregeln und Maßnahmen berücksichtigen, die ergriffen werden könnten, wenn Sie das erwartete Dienstprogramm verwenden, erhalten Sie eine Gesamtbestellung. Sie haben Recht, es könnte Bindungen geben, aber da die Auswirkungen aller Parameter berücksichtigt wurden, wäre es Ihnen gleichgültig, ob Sie eine Auswahl mit gebundenem Dienstprogramm treffen.
Die Alternative, die in der frequentistischen Entscheidungstheorie verwendet wird, besteht darin, die Risikofunktion durch stochastische Dominanz zu ordnen. Eine frequentistische Entscheidung gilt als zulässig, wenn sie nicht stochastisch beherrscht werden kann. Dies erlaubt keine vollständige Bestellung. Trotzdem, wennδ( x ) stochastisch dominiert erste Ordnung δ'( x ) , dann ist es auch wahr, dass der erwartete Nutzen der Wahl δ>δ' . Die Alternative bringt Ihnen also das gleiche Ergebnis.
Es gibt einige andere Lösungen, die verwendet werden können, aber sie entsprechen entweder der Maximierung des erwarteten Nutzens oder sie werfen die Frage auf, warum Sie sie in den Fällen verwenden würden, in denen dies nicht der Fall ist. Stellen Sie sich als weiteres statistisches Beispiel vor, Sie lesen eine Forschungsstudie mit einer Stichprobengröße von einer Million Beobachtungen unter Verwendung von Maximum-Likelihood-Methoden oder Bayes'schen Methoden. Sie replizieren die Studie mit einer Stichprobengröße von 100 und schätzen den Mittelwert und die Varianz mithilfe eines unverzerrten Schätzers. Weder Bayes'sche noch Maximum-Likelihood-Schätzer sind im allgemeinen Fall unvoreingenommen.
Sie bestehen darauf, dass Sie Ihre Schätzungen nicht kombinieren, da die andere Schätzung voreingenommen ist, während Ihre unvoreingenommen ist. Bayesianische Methoden bieten eine disziplinierte Methode, um die Stichproben zu einem einzigen Punktschätzer zu kombinieren und so Ihren Nutzen zu maximieren. Sie bestehen darauf, die Informationen in der Stichprobe von einer Million Personen zugunsten der Unparteilichkeit zu verlieren.
Wenn Ihr Dienstprogramm eine sehr starke Tendenz zu unvoreingenommenen Schätzern hätte, würden Sie Ihren Nutzen maximieren, indem Sie den Nutzen Ihres Schätzers nicht maximieren. Wenn dies nicht der Fall ist, ist der voreingenommene Schätzer weitaus genauer als der Ihrer kleinen Stichprobe. Wenn die Genauigkeit Ihren Nutzen maximiert, wählen Sie am Ende einen Schätzer, der den Nutzen maximiert.
Verwechseln Sie die Erwartung des Dienstprogramms nicht mit dem erwarteten Wert der Aktion. Das sind verschiedene Dinge.
Erwägen Sie außerdem, den erwarteten Nutzen im Vergleich zum mittleren Nutzen zu maximieren. Sie nehmen den Nutzen jedes Ergebnisses multipliziert mit seiner Wahrscheinlichkeit und summieren es.E[U(x~)]=∫x~∈χU(x~)Pr(x~)dx~
Lassen Sie uns nun über den Median-Nutzen nachdenken.M[U(x~)]=c wenn ∫caU(x~)Pr(x~)dx~=∫bcU(x~)Pr(x~)dx~.
Was würde das bedeuten? Sie wären genauso glücklich, wenn Sie links wie rechts von landen würdenc ? Warum sollte dich das interessieren?
Wenn Sie eine Aktion ausgewählt haben, die den erwarteten Nutzen maximiert, können Sie keine Aktion ausführen, von der Sie glauben, dass sie Sie glücklicher macht. Der Median-Nutzen erlaubt keine Maximierung, da die Aktion durch die Kraft ausgewählt wird, in der Mitte zu sein. Sie würden immer die Maßnahmen ergreifen, die Ihnen eine 50-prozentige Chance geben, glücklicher als gewöhnlich oder trauriger als gewöhnlich zu sein. Was für eine seltsame Sache!
EDIT Aus Kolmogorovs Axiomen muss die Summe einer Verteilung gleich eins sein. Stellen Sie sich einen Fall mit zwei Aktionssätzen vor:a und a′ , wo a′ ist die Menge der Aktionen, die nicht sind a .
Konzentration aufa Nehmen wir an, dass die Utility-Funktion ist −x2 . Nehmen wir das anx , wenn die Aktion ist a wird aus gezogen f(x)=exp(−x),x>0 .
Bemerken, dass∫∞0exp(−x)dx=1, wir können leicht bestätigen, dass es sich um eine Wahrscheinlichkeitsdichtefunktion handelt. Das Einbeziehen von Dienstprogrammen führt zu∫∞0x2exp(−x)dx=−2, was bestätigt, dass es keine Verteilung ist. E(U(a))=−2.
Es wäre zwar möglich, eine Verteilung nach Dienstprogrammen zu erstellen, dies ist jedoch nicht unbedingt eine Funktion, da ifg(x)=U(x)Pr(x) , dann g−1(x) ist nicht garantiert eine Funktion.
quelle