Warum sollten sie hier eine Gammaverteilung wählen?

14

In einer der Übungen für meinen Kurs verwenden wir einen medizinischen Datensatz von Kaggle .

Die Übung sagt:

Wir möchten die Verteilung der einzelnen Gebühren modellieren und wir möchten auch in der Lage sein, unsere Unsicherheit über diese Verteilung zu erfassen, damit wir den Wertebereich, den wir möglicherweise sehen, besser erfassen können. Laden der Daten und Ausführen einer ersten Ansicht:

Handlung

Wir können davon ausgehen, dass es hier eine Art exponentielle Verteilung gibt. ... Die Gebühren für Versicherungsansprüche können möglicherweise multimodal sein. Die Gammaverteilung ist möglicherweise anwendbar, und wir könnten dies auf die Verteilung von Gebühren testen, die nicht erst Versicherungsansprüche waren.

Ich suchte nach "Gammaverteilung" und fand "eine kontinuierliche, nur positive, unimodale Verteilung, die die Zeit codiert, die für das Auftreten von" Alpha "-Ereignissen in einem Poisson-Prozess mit einer mittleren Ankunftszeit von" Beta "erforderlich ist".

Hier ist keine Zeit erforderlich, nur nicht verbundene Kosten, entweder versichert oder nicht.

Warum sollten sie eine Gammaverteilung wählen?

Vicki B
quelle

Antworten:

27

Wenn Sie über einfache parametrische Modelle für die bedingte Verteilung von Daten nachdenken (dh die Verteilung jeder Gruppe oder die erwartete Verteilung für jede Kombination von Prädiktorvariablen) und es sich um eine positive kontinuierliche Verteilung handelt, sind die beiden gängigen Optionen Gamma und log-Normal . Diese Verteilungen erfüllen nicht nur die Spezifikation des Bereichs der Verteilung (reelle Zahlen größer als Null), sondern sind auch rechnerisch bequem und oft mechanistisch sinnvoll.

  • Die logarithmische Normalverteilung lässt sich leicht durch Exponentieren einer Normalverteilung ableiten (umgekehrt ergibt die logarithmische Transformation von logarithmischen Normalabweichungen Normalabweichungen). Aus mechanistischer Sicht entsteht die log-Normale über den zentralen Grenzwertsatz, wenn jede Beobachtung das Produkt einer großen Anzahl von iid-Zufallsvariablen widerspiegelt. Sobald Sie die Daten protokolliert haben, haben Sie Zugriff auf eine Vielzahl von Berechnungs- und Analysewerkzeugen (z. B. alles, was die Normalität voraussetzt oder Methoden der kleinsten Quadrate verwendet).
  • Wie Ihre Frage zeigt, ist eine Möglichkeit, wie eine Gamma- Verteilung entsteht, die Verteilung der Wartezeiten bisnλist verfügbar; Es hat auch eine besonders praktische Form für die Analyse.

Es gibt andere Gründe, warum man sich für den einen oder anderen entscheiden könnte - zum Beispiel die "Schwere" des Endes der Verteilung , die für die Vorhersage der Häufigkeit extremer Ereignisse wichtig sein könnte. Es gibt viele andere positive, kontinuierliche Distributionen (siehe z. B. diese Liste ), aber sie werden tendenziell in spezialisierteren Anwendungen verwendet.

Sehr wenige dieser Verteilungen erfassen die Multi-Modalität, die Sie in den obigen Randverteilungen sehen, aber Multi-Modalität lässt sich möglicherweise dadurch erklären, dass die Daten in Kategorien gruppiert werden, die von beobachteten kategorialen Prädiktoren beschrieben werden. Wenn es keine beobachtbaren Prädiktoren gibt, die die Multimodalität erklären, könnte man ein endliches Mischungsmodell wählen, das auf einer Mischung einer (kleinen, diskreten) Anzahl von positiven kontinuierlichen Verteilungen basiert.

Ben Bolker
quelle
1
Erwähnenswert ist auch, dass Gamma- und Lognormal-Modelle fast immer sehr ähnliche Ergebnisse liefern
Carlo
2
Ich arbeite in der Versorgungsforschung. Ich kann bestätigen, dass im Allgemeinen eine Gamma- oder Lognormalverteilung eine geeignete Wahl für ein Modell der Gesundheitsausgaben oder Anspruchsbeträge wäre. Die Gamma-Verteilung kann zeitlich auf Ereignismodelle angewendet werden, diese sind hier jedoch nicht anwendbar.
Weiwen Ng
Vielen Dank!! Das war sehr hilfreich.
Vicki B