Ich habe versucht zu lernen, welche Distributionen in GLMs verwendet werden sollen, und ich bin ein wenig verwirrt, wann ich die normale Distribution verwenden soll. In einem Teil meines Lehrbuchs heißt es, dass eine Normalverteilung gut für die Modellierung von Prüfungsergebnissen geeignet sein könnte. Im nächsten Teil wird gefragt, welche Aufteilung für die Modellierung eines Kfz-Versicherungsanspruchs angemessen wäre. Diesmal hieß es, dass die entsprechenden Verteilungen Gamma oder Inverse Gaussian sind, da sie nur mit positiven Werten fortlaufend sind. Nun, ich glaube, dass die Prüfungsergebnisse auch kontinuierlich mit nur positiven Werten sein würden. Warum sollten wir dort also eine Normalverteilung verwenden? Lässt die Normalverteilung keine negativen Werte zu?
quelle
Antworten:
Zum Beispiel wird die Höhe oft als normal modelliert. Vielleicht ist die Größe von Männern etwas wie 5 Fuß 10 mit einer Standardabweichung von 2 Zoll. Wir wissen, dass negative Höhe unphysisch ist, aber unter diesem Modell ist die Wahrscheinlichkeit, eine negative Höhe zu beobachten, im Wesentlichen Null. Wir benutzen das Modell trotzdem, weil es eine gute Annäherung ist.
Alle Modelle sind falsch. Die Frage lautet: "Kann dieses Modell noch nützlich sein?". In Fällen, in denen wir Dinge wie Größe und Testergebnisse modellieren, ist es hilfreich, das Phänomen als normal zu modellieren, obwohl es technisch unphysische Dinge zulässt.
quelle
Richtig. Es hat auch keine Obergrenze.
Trotz der vorherigen Aussagen ist dies jedoch manchmal der Fall. Wenn Sie viele zu testende Komponenten haben, die nicht zu eng miteinander verwandt sind (z. B. wenn Sie nicht ein Dutzend Mal im Wesentlichen dieselbe Frage haben oder wenn für jeden Teil eine korrekte Antwort auf den vorherigen Teil erforderlich ist) und nicht sehr einfach oder sehr schwierig sind ( Wenn sich die meisten Markierungen in der Nähe der Mitte befinden, können die Markierungen häufig durch eine Normalverteilung einigermaßen gut angenähert werden. oft gut genug, dass typische Analysen wenig Anlass zur Sorge geben sollten.
Wir wissen sicher, dass sie nicht normal sind , aber das ist nicht automatisch ein Problem - solange das Verhalten der von uns verwendeten Prozeduren nahe genug ist, wie es für unsere Zwecke sein sollte (z. B. Standardfehler, Konfidenzintervalle, Signifikanzniveaus) und Leistung - je nachdem, was benötigt wird - in der Nähe dessen tun, was wir von ihnen erwarten.)
Ja, aber mehr als das - sie neigen dazu, stark schief zu sein, und die Variabilität steigt tendenziell an, wenn der Mittelwert größer wird.
Hier ist ein Beispiel für eine Anspruchsgrößenverteilung für Fahrzeugansprüche:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Abb. 5 aus Garrido, Genest & Schulz (2016)) "Verallgemeinerte lineare Modelle für die abhängige Häufigkeit und Schwere von Versicherungsansprüchen", Insurance: Mathematics and Economics, Vol. 70, Sept., S. 205-215. Https : //www.sciencedirect. de / science / article / pii / S0167668715303358 )
Dies zeigt einen typischen rechten Versatz und einen schweren rechten Schwanz. Wir müssen jedoch sehr vorsichtig sein, da dies eine marginale Verteilung ist, und wir schreiben ein Modell für die bedingte Verteilung, die typischerweise viel weniger schief ist (die marginale Verteilung, die wir betrachten, wenn wir nur ein Histogramm von Anspruchsgrößen erstellen, die eine Mischung sind) dieser bedingten Ausschüttungen). Trotzdem ist es in der Regel so, dass die Verteilung bei Betrachtung der Anspruchsgröße in Untergruppen der Prädiktoren (möglicherweise unter Kategorisierung kontinuierlicher Variablen) immer noch stark nach rechts geneigt und ziemlich stark nach rechts begrenzt ist, was darauf hindeutet, dass es sich um ein Gammamodell * handelt wahrscheinlich viel geeigneter als ein Gaußsches Modell.
* Es kann eine beliebige Anzahl anderer Verteilungen geben, die geeigneter wären als eine Gaußsche - die inverse Gaußsche ist eine andere Wahl - obwohl sie weniger verbreitet ist. Lognormale oder Weibull-Modelle sind zwar noch keine GLMs, können aber auch sehr nützlich sein.
[Es ist selten der Fall, dass eine dieser Distributionen eine nahezu perfekte Beschreibung darstellt. Sie sind ungenaue Näherungen, aber in vielen Fällen ausreichend gut, damit die Analyse nützlich ist und den gewünschten Eigenschaften nahe kommt.]
Weil (unter den oben genannten Bedingungen - viele Komponenten, nicht zu abhängig, nicht zu hart oder zu leicht) die Verteilung eher symmetrisch, unimodal und nicht schwergängig ist.
quelle
Die Prüfungsergebnisse lassen sich möglicherweise besser durch eine Binomialverteilung modellieren. In einem stark vereinfachten Fall könnten Sie 100 Richtig / Falsch-Fragen haben, die jeweils 1 Punkt wert sind. Die Punktzahl wäre also eine ganze Zahl zwischen 0 und 100. Wenn Sie keine Korrelation zwischen der Korrektheit des Testteilnehmers von Problem zu Problem annehmen (allerdings zweifelhafte Annahme) ) ist die Punktzahl eine Summe unabhängiger Zufallsvariablen, und es gilt der zentrale Grenzwertsatz. Mit zunehmender Anzahl von Fragen konvergiert der Anteil der richtigen Probleme zu einer Normalverteilung.
Sie stellen eine gute Frage zu Werten unter 0. Sie können dieselbe Frage auch zu Werten über 100% stellen. Wenn die Anzahl der Testfragen zunimmt, nimmt die Varianz der Summe ab, sodass der Peak zum Mittelwert gezogen wird. In ähnlicher Weise weist die Normalverteilung mit der besten Anpassung eine geringere Varianz auf, und das Gewicht des PDF außerhalb des Intervalls [0, 1] tendiert gegen 0, obwohl es immer ungleich Null ist. Der Abstand zwischen den möglichen Werten für "korrekter Bruch" nimmt ebenfalls ab (1/100 für 100 Fragen, 1/1000 für 1000 Fragen usw.), sodass sich das PDF informell immer mehr wie ein fortlaufendes PDF verhält.
quelle