Wie kann man beobachtete mit erwarteten Ereignissen vergleichen?

9

Angenommen, ich habe eine Stichprobe von Häufigkeiten von 4 möglichen Ereignissen:

Event1 - 5
E2 - 1
E3 - 0
E4 - 12

und ich habe die erwarteten Wahrscheinlichkeiten, dass meine Ereignisse eintreten:

p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6

Mit der Summe der beobachteten Häufigkeiten meiner vier Ereignisse (18) kann ich die erwarteten Häufigkeiten der Ereignisse berechnen, oder?

expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8

Wie kann ich beobachtete Werte mit erwarteten Werten vergleichen? um zu testen, ob meine berechneten Wahrscheinlichkeiten gute Prädiktoren sind?

Ich dachte an einen Chi-Quadrat-Test, aber das Ergebnis ändert sich mit der Stichprobengröße (n = 18). Ich meine, wenn ich beobachtete Werte mit 1342 multipliziere und dieselbe Methode verwende, ist das Ergebnis unterschiedlich. Vielleicht funktioniert ein Wilcox-Paired-Test, aber was schlagen Sie vor?

Wenn in R vorschlagen kann, wäre es besser.

Juan
quelle

Antworten:

4

Sie erwähnen, dass Sie unterschiedliche Ergebnisse erhalten, wenn Sie alle Werte mit multiplizieren . Das ist kein Problem. Sie sollten sehr unterschiedliche Ergebnisse erhalten. Wenn Sie eine Münze werfen und sie auftaucht, sagt dies nicht viel aus. Wenn Sie eine Münze Mal und jedes Mal Köpfe bekommen, haben Sie viel mehr Informationen, die darauf hindeuten, dass die Münze nicht fair ist.134213421342

Normalerweise möchten Sie Alternativen zu einem Test verwenden, wenn die erwartete Anzahl von Vorkommen in einem großen Prozentsatz Ihrer Kategorien (z. B. mindestens ) so gering ist (z. B. unter ). Eine Möglichkeit ist der exakte Fisher-Test , der in R implementiert ist . Sie können den Test als Annäherung an den exakten Fisher-Test anzeigen , und die Annäherung ist nur dann gut, wenn mehr der erwarteten Zählungen groß sind. 5 20 % χ 2χ2520%χ2

Douglas Zare
quelle
Danke, welches ist dafür besser: nur der Fischertest? oder der Fischertest mit p simuliertem Wert? und warum?
Juan
Die Simulation führt zu Fehlern, die zwar klein sind, für kleine Werte jedoch nicht erforderlich sein sollten. Wenn Sie Kategorien und Objekte haben, ist die Anzahl der möglichen Ergebnisse . Wenn dies nach den Standards von Computern klein ist (vielleicht weniger als ), würde ich nur exakte Berechnungen verwenden. Wenn die genauen Berechnungen langsam sind, testen Sie die Fehler der Simulationen und prüfen Sie, ob sie für die Geschwindigkeitssteigerung akzeptabel sind. nkn(n+k1n)107
Douglas Zare