Gibt an, ob ein Offset in einer Poisson-Regression verwendet werden soll, wenn die von Hockeyspielern erzielten Karriereziele insgesamt prognostiziert werden

10

Ich habe eine Frage, ob ich einen Offset verwenden soll oder nicht. Nehmen Sie ein sehr einfaches Modell an, in dem Sie die (Gesamt-) Anzahl der Tore im Hockey beschreiben möchten. Sie haben also Tore, die Anzahl der gespielten Spiele und eine Dummy-Variable "Stürmer", die gleich 1 ist, wenn der Spieler ein Stürmer ist, und ansonsten 0. Welches der folgenden Modelle ist also korrekt angegeben?

  1. Tore = Spiele + Stürmer oder

  2. Tore = Offset (Spiele) + Stürmer

Auch hier sind die Ziele Gesamtziele und die Anzahl der Spiele sind Gesamtspiele für einen einzelnen Spieler. Zum Beispiel könnte ein Spieler mit 50 Toren in 100 Spielen und ein anderer Spieler mit 20 Toren in 50 Spielen usw. ausgewählt werden.

Was soll ich tun, wenn ich die Anzahl der Ziele schätzen möchte? Ist es wirklich notwendig, hier einen Offset zu verwenden?

Verweise:

MarkDollar
quelle
Was ist Ihre abhängige Variable? Ist es die Gesamtzahl der bisherigen Tore in einer Karriere für einen bestimmten Spieler? Gibt es auch einen Grund, warum Sie keine mittleren Tore pro Spiel vorhersagen möchten?
Jeromy Anglim
Ja, es ist die Gesamtzahl der Tore! Nein, ich habe nicht die Daten für jedes Spiel. Ich habe nur die Gesamtdaten.
MarkDollar
Die abhängige Variable ist (Anzahl) Ziele. (Siehe Gleichungen oben)
MarkDollar
Ich habe den Titel ein wenig angepasst, damit er kein Duplikat der vorherigen Frage ist. Fühlen Sie sich frei zu ändern, wenn ich falsch verstanden habe.
Jeromy Anglim

Antworten:

16

Ein Offset-Modell modelliert Ziele pro Spiel, wie man hier sehen kann:

log(goals/games) = a+bx

ist äquivalent zu

log(goals) -log(games) = a+bx

ist äquivalent zu

log(goals)= a+bx +log(games)   <-this is an offset model, assumes coef on the last term =1

Siehe Folie 35 hier: http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/4glm3-ha-online.pdf

Wenn Sie der Meinung sind, dass a + bx mit dem logarithmischen Verhältnis von Toren zu Spielen (der Rate) zusammenhängt, verwenden Sie einen Versatz. Wenn Sie der Meinung sind, dass es einen komplizierteren Spieleffekt gibt, möglicherweise aufgrund der gesammelten Erfahrung, tun Sie dies nicht. Weitere Informationen finden Sie unter: http://ezinearticles.com/?The-Exposure-and-Offset-Variables-in-Poisson-Regression-Models&id=2155811

Patrick McCann
quelle
1

Einige einfache Punkte, die Ihre Frage zu Offsets nicht direkt beantworten:

  • Ich würde mir ansehen, ob die Anzahl der Spiele mit den durchschnittlich erzielten Toren korreliert. In vielen Elite-Torsportarten, an die ich denken kann (z. B. Fußball, Fußball nach australischen Regeln usw.), würde ich vorhersagen, dass die Langlebigkeit einer Karriere mit dem Erfolg einer Karriere zusammenhängt. Und zumindest für Spieler in Torjägerrollen hängt der Erfolg von der Anzahl der erzielten Tore ab. Wenn dies zutrifft, würde die Anzahl der Spiele zwei Effekte erfassen. Man würde sich auf die bloße Tatsache beziehen, dass mehr gespielte Spiele mehr Möglichkeiten bedeuten, Tore zu erzielen; und der andere würde fähigkeitsbezogene Effekte erfassen. Sie können die Beziehung zwischen der Anzahl der Spiele und den durchschnittlich erzielten Toren (z. B. Tore / Anzahl der Spiele) untersuchen, um dies zu untersuchen. Ich denke, dies hat wesentliche Auswirkungen auf jede Modellierung, die Sie durchführen.
  • Mein Instinkt ist es, die abhängige Variable in mittlere Ziele pro Spiel umzuwandeln. Mir ist klar, dass Sie die Fähigkeiten eines Spielers für diejenigen, die mehr Spiele gespielt haben, genauer messen können. Vielleicht wäre das ein Problem. Abhängig von der gewünschten Präzision in Ihrem Modell und der daraus resultierenden Verteilung der Spielermittel können Sie sich möglicherweise auf standardmäßige lineare Modellierungstechniken verlassen. Aber vielleicht ist dies für Ihre Zwecke etwas zu zutreffend, und vielleicht haben Sie Gründe, die erzielten Gesamttore modellieren zu wollen.
Jeromy Anglim
quelle
Hallo Jeromy! Was Sie beschreiben, ist absolut richtig. Es gibt jedoch keine Möglichkeit, ein Modell zu erstellen, das Ziele / Spiele misst. Also bin ich gezwungen, das obige Modell zu verwenden (Ziele als abhängige und Spiele als unabhängige Variable). Ich weiß, dass Spiele mit Dingen wie Geschicklichkeit korrelieren und dass ich dieses Problem untersuchen muss (Problem mit ausgelassenen Variablen und Endogenität). Aber im Moment frage ich mich, welches der beiden oben genannten Modelle verwendet werden soll!
MarkDollar