Jeder, der Baseball folgt, hat wahrscheinlich von der aus dem Nichts stammenden MVP-Leistung von Jose Bautista aus Toronto gehört. In den letzten vier Jahren erzielte er ungefähr 15 Homeruns pro Saison. Letztes Jahr erreichte er 54, eine Zahl, die von nur 12 Spielern in der Baseballgeschichte übertroffen wurde.
Im Jahr 2010 erhielt er 2,4 Millionen und er bittet das Team um 10,5 Millionen für 2011. Sie bieten 7,6 Millionen an. Wenn er das 2011 wiederholen kann, wird er beide Beträge leicht wert sein. Aber wie stehen die Chancen, dass er sich wiederholt? Wie schwer können wir erwarten, dass er sich auf den Mittelwert zurückbildet? Wie viel von seiner Leistung können wir erwarten, war zufällig? Was können wir von seiner auf den Mittelwert angepassten Gesamtsumme für 2010 erwarten? Wie arbeite ich es aus?
Ich habe mit der Lahman Baseball-Datenbank herumgespielt und eine Abfrage herausgepresst, die die Gesamtzahl der Homeruns für alle Spieler in den letzten fünf Spielzeiten zurückgibt, die mindestens 50 Fledermäuse pro Saison hatten.
Die Tabelle sieht so aus (beachten Sie Jose Bautista in Zeile 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
Das vollständige Ergebnis (232 Zeilen) finden Sie hier .
Ich weiß wirklich nicht, wo ich anfangen soll. Kann mich jemand in die richtige Richtung weisen? Einige relevante Theorie- und R-Befehle wären besonders hilfreich.
Vielen Dank
Tommy
Hinweis: Das Beispiel ist ein wenig erfunden. Homeruns sind definitiv nicht der beste Indikator für den Wert eines Spielers, und die Gesamtzahl der Homeruns berücksichtigt nicht die unterschiedliche Anzahl von Chancen pro Saison, dass ein Schlagmann die Chance hat, Homeruns zu treffen (Plattenauftritte). Es spiegelt auch nicht wider, dass einige Spieler in günstigeren Stadien spielen und dass sich die durchschnittlichen Heimläufe der Liga von Jahr zu Jahr ändern. Usw. Wenn ich die Theorie hinter der Berücksichtigung der Regression zum Mittelwert verstehen kann, kann ich sie für geeignetere Maßnahmen als HRs verwenden.
quelle
Antworten:
Ich denke, dass es definitiv eine Bayes'sche Schrumpfung oder vorherige Korrektur gibt, die die Vorhersage erleichtern könnte, aber Sie möchten vielleicht auch einen anderen Ansatz in Betracht ziehen ...
Suchen Sie nach Spielern in der Geschichte, nicht nur in den letzten Jahren, die nach einem Paar in den Majors Breakout-Saisons hatten (dramatische Erhöhungen vielleicht 2x), und sehen Sie, wie sie sich im folgenden Jahr geschlagen haben. Es ist möglich, dass die Wahrscheinlichkeit, die Leistung dort aufrechtzuerhalten, der richtige Prädiktor ist.
Es gibt verschiedene Möglichkeiten, dieses Problem zu betrachten, aber wie mpiktas sagte, werden Sie mehr Daten benötigen. Wenn Sie sich nur mit den neuesten Daten befassen möchten, müssen Sie sich die allgemeinen Ligastatistiken ansehen, die Pitcher, gegen die er antritt, es ist ein komplexes Problem.
Und dann werden nur noch Bautistas eigene Daten berücksichtigt. Ja, das war sein bestes Jahr, aber es war auch das erste Mal seit 2007, dass er über 350 ABs (569) hatte. Möglicherweise möchten Sie die prozentuale Leistungssteigerung konvertieren.
quelle
Sie können ein Modell nur an diese Daten anpassen und Vorhersagen erhalten, die die Regression auf den Mittelwert berücksichtigen, indem Sie gemischte (mehrstufige) Modelle verwenden. Vorhersagen aus solchen Modellen erklären die Regression zum Mittelwert. Selbst ohne so gut wie nichts über Baseball zu wissen, finde ich keine Ergebnisse, die ich fürchterlich glaubwürdig gemacht habe, da das Modell, wie Sie sagen, andere Faktoren wie das Erscheinungsbild der Platte wirklich berücksichtigen muss.
Ich denke, ein Poisson-Modell mit gemischten Effekten wäre besser geeignet als ein lineares Modell mit gemischten Effekten, da die Anzahl der Home Runs zählt. Wenn Sie sich die von Ihnen angegebenen Daten ansehen,
hr
zeigt ein Histogramm , dass sie stark positiv verzerrt sind, was darauf hindeutet, dass ein lineares gemischtes Modell nicht gut funktioniert und eine ziemlich große Anzahl von Nullen enthält, mit oder ohne logarithmische Transformation zuerst.Hier ist ein Code, der die
lmer
Funktion aus dem lme4- Paket verwendet. Nachdem ich eine ID-Variable erstellt habe, um jeden Spieler zu identifizieren, und die Daten in das 'lange' Format umgeformt habe, wie in seiner Antwort angegeben, habe ich dies in Stata getan, da ich in R nicht gut in der Datenverwaltung bin, aber Sie könnten es in a tun Tabellenkalkulationspaket):Dies passt zu einem Modell mit einem Log-Link, der eine exponentielle Abhängigkeit der Trefferquote vom Jahr ergibt, die zwischen den Spielern variieren darf. Andere Verknüpfungsfunktionen sind möglich, obwohl die Identitätsverknüpfung aufgrund negativ angepasster Werte einen Fehler ergab. Ein sqrt-Link funktionierte jedoch einwandfrei und hat einen niedrigeren BIC und AIC als das Modell mit dem Protokolllink, sodass er möglicherweise besser passt. Die Vorhersagen für die Trefferquote im Jahr 2011 hängen von der gewählten Link-Funktion ab, insbesondere für Spieler wie Bautista, deren Trefferquote sich in letzter Zeit stark verändert hat.
Ich fürchte, ich habe es nicht geschafft, solche Vorhersagen tatsächlich zu erhalten
lme4
. Ich bin mit Stata besser vertraut, was es sehr einfach macht, Vorhersagen für Beobachtungen mit fehlenden Werten für das Ergebnis zu erhalten, obwohl xtmelogit anscheinend keine andere Auswahl an Linkfunktionen als log bietet, was für Bautista eine Vorhersage von 50 ergab Home Runs im Jahr 2011. Wie gesagt, ich finde das nicht besonders glaubwürdig. Ich wäre dankbar, wenn jemand zeigen könnte, wie man aus den oben genanntenlmer
Modellen Vorhersagen für 2011 generiert .Ein autoregressives Modell wie AR (1) für die Fehler auf Spielerebene mag ebenfalls interessant sein, aber ich weiß nicht, wie ich eine solche Struktur mit einem gemischten Poisson-Modell kombinieren soll.
quelle
Sie benötigen zusätzliche Daten zu den Spielern und ihren Eigenschaften in der Zeitspanne, in der Sie Daten über Home-Runs haben. Fügen Sie für den ersten Schritt einige zeitlich variierende Merkmale wie Alter oder Erfahrung der Spieler hinzu. Dann können Sie HLM- oder Paneldatenmodelle verwenden. Sie müssen Daten in folgendem Format vorbereiten:
Das einfachste Modell wäre dann (die Funktion lme stammt aus dem Paket nlme )
Dieses Modell wird stark von der Annahme abhängen, dass die Home-Run-Nummer jedes Spielers nur von der Erfahrung abhängt, die eine gewisse Variabilität zulässt. Es wird wahrscheinlich nicht sehr genau sein, aber Sie werden zumindest ein Gefühl dafür bekommen, wie unwahrscheinlich die Zahlen von Jose Bautista im Vergleich zu einem durchschnittlichen Spieler sind. Dieses Modell kann durch Hinzufügen der Eigenschaften anderer Spieler weiter verbessert werden.
quelle
Vielleicht möchten Sie sich The Book Blog ansehen.
Tom Tango und die anderen Autoren von "The Book: Playing the Percentages in Baseball" sind wahrscheinlich die besten Quellen für Sabermetrik. Insbesondere lieben sie die Regression zum Mittelwert. Sie entwickelten ein Prognosesystem, das als das grundlegendste akzeptable System (Marcel) konzipiert wurde und fast ausschließlich auf der Regression des Mittelwerts beruht.
Ich nehme an, eine Methode wäre, eine solche Prognose zu verwenden, um das wahre Talent zu schätzen und dann eine angemessene Verteilung um dieses mittlere Talent zu finden. Sobald Sie das haben, wird jedes Erscheinungsbild der Platte wie ein Bernoulli-Versuch sein, sodass die Binomialverteilung Sie den Rest des Weges führen könnte.
quelle
Zu Ihrer Information, von 2011 bis 2014 erreichte er 43, 27, 28 und 35.
Das ist ziemlich nahe an seinem 162-Spiele-Durchschnitt von 32 (was natürlich diese Werte beinhaltet) und ungefähr 1 SD unter den 54 im Jahr 2010.
Sieht aus wie eine Regression des Mittelwerts in Aktion: Eine extreme Gruppe, die durch die Nutzung von lauten Themen (in diesem Fall 1) aufgebaut wird, die zufällig von ihrem Gruppenmittelwert abweichen.
http://www.baseball-reference.com/players/b/bautijo02.shtml
quelle