Ich habe hauptsächlich einen Informatik-Hintergrund, aber jetzt versuche ich, mir grundlegende Statistiken beizubringen. Ich habe einige Daten, von denen ich denke, dass sie eine Poisson-Verteilung haben
Ich habe zwei Fragen:
- Ist das eine Poisson-Distribution?
- Zweitens ist es möglich, dies in eine Normalverteilung umzuwandeln?
Jede Hilfe wäre dankbar. Vielen Dank
Antworten:
1) Was abgebildet ist, scheinen (gruppierte) kontinuierliche Daten zu sein, die als Balkendiagramm gezeichnet sind.
Sie können ziemlich sicher schließen, dass es sich nicht um eine Poisson-Distribution handelt.
Eine Poisson-Zufallsvariable nimmt die Werte 0, 1, 2, ... an und hat nur dann den höchsten Peak bei 0, wenn der Mittelwert kleiner als 1 ist. Sie wird für Zähldaten verwendet. Wenn Sie ein ähnliches Diagramm mit Poisson-Daten gezeichnet haben, könnte dies wie folgt aussehen:
Der erste ist ein Poisson, der eine ähnliche Schiefe wie Sie aufweist. Sie können sehen, dass der Mittelwert ziemlich klein ist (um 0,6).
Der zweite ist ein Poisson, dessen Bedeutung (bei einer sehr groben Vermutung) Ihrer ähnlich ist. Wie Sie sehen, sieht es ziemlich symmetrisch aus.
Sie können die Schiefe oder den großen Mittelwert haben, aber nicht beide gleichzeitig.
2) (i) Sie können diskrete Daten nicht normalisieren -
Mit den gruppierten Daten verschieben Sie mithilfe einer monoton ansteigenden Transformation alle Werte in einer Gruppe an dieselbe Stelle, sodass die niedrigste Gruppe immer noch den höchsten Peak aufweist - siehe Abbildung unten. Im ersten Diagramm verschieben wir die Positionen der x-Werte so, dass sie genau mit einem normalen cdf übereinstimmen:
Im zweiten Diagramm sehen wir die Wahrscheinlichkeitsfunktion nach der Transformation. Wir können so etwas wie Normalität nicht wirklich erreichen, weil es sowohl diskret als auch schief ist. Der große Sprung der ersten Gruppe bleibt ein großer Sprung, egal ob Sie ihn nach links oder rechts schieben.
(ii) Kontinuierlich verzerrte Daten können so transformiert werden, dass sie einigermaßen normal aussehen. Wenn Sie rohe (nicht gruppierte) Werte haben und diese nicht stark diskret sind, können Sie möglicherweise etwas tun, aber selbst dann, wenn Menschen versuchen, ihre Daten zu transformieren, ist dies entweder unnötig oder das zugrunde liegende Problem kann auf eine andere (im Allgemeinen bessere) Weise gelöst werden . Manchmal ist Transformation eine gute Wahl, aber normalerweise aus nicht sehr guten Gründen.
Also ... warum willst du es transformieren?
quelle
Weitere lustige Informationen für die Nachwelt veröffentlichen.
Es gibt einen älteren Beitrag, in dem ein ähnliches Problem hinsichtlich der Verwendung von Zähldaten als unabhängige Variable für logistische Regressionen erörtert wird.
Hier ist es:
Verstößt die Verwendung von Zähldaten als unabhängige Variable gegen eine der GLM-Annahmen?
Wie Glen bereits erwähnt hat, können Sie die nicht transformierten Zähldaten möglicherweise als direkten Bestandteil Ihres logistischen Regressionsmodells verwenden, wenn Sie lediglich versuchen, ein dichotomes Ergebnis vorherzusagen. Ein Hinweis zur Vorsicht: Wenn eine unabhängige Variable (IV) sowohl poissonverteilt als auch über viele Größenordnungen unter Verwendung der Rohwerte reicht, kann dies zu sehr einflussreichen Punkten führen, die wiederum Ihr Modell beeinflussen können. In diesem Fall kann es hilfreich sein, eine Transformation zu Ihren IVs durchzuführen, um ein robusteres Modell zu erhalten.
Transformationen wie die Quadratwurzel oder das Protokoll können die Beziehung zwischen der IV und dem Odds Ratio verbessern. Wenn beispielsweise Änderungen von X um drei ganze Größenordnungen (vom mittleren X-Wert entfernt) einer Änderung der Wahrscheinlichkeit des Auftretens von Y von 0,1 (von 0,5 weg) entsprachen, ist es ziemlich sicher anzunehmen, dass Modellabweichungen auftreten führen zu erheblichen Verzerrungen aufgrund der extremen Hebelwirkung von Ausreißer-X-Werten.
Stellen Sie sich zur weiteren Veranschaulichung vor, wir wollten die Scoville-Bewertung verschiedener Chilischoten (Domäne [X] = {0, 3,2 Millionen}) verwenden, um die Wahrscheinlichkeit vorherzusagen, dass eine Person den Pfeffer als "unangenehm scharf" einstuft (Bereich [Y] = {1 = ja, 0 = nein}) nach dem Verzehr eines Pfeffers der entsprechenden Bewertung X.
https://en.wikipedia.org/wiki/Scoville_scale
Wenn Sie sich das Diagramm der Scoville-Bewertungen ansehen, können Sie sehen, dass eine logarithmische Transformation der rohen Scoville-Bewertungen eine nähere Annäherung an die subjektiven (1-10) Bewertungen jedes Chilis ergibt.
Wenn wir also in diesem Fall ein robusteres Modell erstellen möchten, das die wahre Beziehung zwischen den Scoville-Rohbewertungen und der subjektiven Wärmebewertung erfasst, könnten wir eine logarithmische Transformation für X-Werte durchführen. Auf diese Weise reduzieren wir den Einfluss der übermäßig großen X-Domäne, indem wir den Abstand zwischen Werten, die sich um Größenordnungen unterscheiden, effektiv "verkleinern" und folglich das Gewicht von X-Ausreißern (z. B. Capsaicin-intoleranten und / oder verrückten Gewürzfeinden) reduzieren! !!) haben auf unsere Vorhersagen.
Hoffe, dies fügt einen lustigen Kontext hinzu!
quelle