Ich hoffe, dass ich diese Frage richtig stellen kann. Ich habe Zugriff auf Play-by-Play-Daten, daher ist es eher ein Problem mit der besten Vorgehensweise und der korrekten Erstellung der Daten.
Was ich tun möchte, ist zu berechnen, wie wahrscheinlich es ist, ein NHL-Spiel zu gewinnen, wenn das Ergebnis und die verbleibende Zeit in der Regulierung berücksichtigt werden. Ich glaube, ich könnte eine logistische Regression verwenden, bin mir aber nicht sicher, wie der Datensatz aussehen soll. Hätte ich mehrere Beobachtungen pro Spiel und für jeden Zeitraum, an dem ich interessiert bin? Hätte ich eine Beobachtung pro Spiel und würde ich pro Zeitscheibe verschiedene Modelle einsetzen? Ist logistische Regression überhaupt der richtige Weg?
Jede mögliche Hilfe, die Sie zur Verfügung stellen können, wird sehr geschätzt!
Freundliche Grüße.
quelle
Antworten:
Führen Sie eine logistische Regression mit den Kovariaten "Spielzeit" und "Tore (Heimmannschaft) - Tore (Auswärtsteam)" durch. Sie benötigen einen Interaktionseffekt dieser Begriffe, da ein Vorsprung von 2 Toren zur Halbzeit einen viel geringeren Effekt hat als ein Vorsprung von 2 Toren, wenn nur noch 1 Minute verbleibt. Ihre Antwort ist "Sieg (Heimmannschaft)".
Nicht nur Linearität für diese übernehmen, passt eine gleichmäßig variierende Koeffizienten Modell für die Wirkung von „Ziele (Heimmannschaft) - Ziele (Mannschaft)“, zB in R Sie nutzen könnten
mgcv
‚sgam
wie Funktion mit einer Modellformelwin_home ~ s(time_remaining, by=lead_home)
. Machen Sielead_home
einen Faktor, so dass Sietime_remaining
für jeden Wert von einen anderen Effekt von bekommenlead_home
.Ich würde mehrere Beobachtungen pro Spiel erstellen, eine für jeden Zeitraum, an dem Sie interessiert sind.
quelle
win_home
auf der Ebene der Gruppierung konstant ist (dh für alle Zeitscheiben für eine bestimmte Übereinstimmung ist es entweder 0 oder 1), einschließlich z. B. eines zufälligen Abschnitts für die Übereinstimmungen wird in diesem Zusammenhang nur zu großen Problemen mit der Trennung führen.Ich würde anfangen, die Daten von einem Spielzeugmodell zu simulieren. Etwas wie:
Jetzt haben wir etwas zu spielen. Sie könnten auch die Rohdaten verwenden, aber ich finde es sehr hilfreich, die Daten zu simulieren, um die Dinge durchzudenken.
Als nächstes plotte ich nur die Daten, dh die Plotzeit des Spiels im Vergleich zum Blei nach Hause, wobei die Farbskala der beobachteten Gewinnwahrscheinlichkeit entspricht.
Dies hilft Ihnen, die Unterstützung Ihrer Daten zu finden und gibt Ihnen eine ungefähre Vorstellung davon, wie die Wahrscheinlichkeiten aussehen.
quelle
Schauen Sie sich die Statistiken Nerds bei Football Outsiders sowie das Buch Mathletics für einige Inspiration.
Die Jungs von Football Outsiders machen Spielvorhersagen basierend auf jedem Spiel in einem Fußballspiel.
Winston in Mathletics verwendet auch einige Techniken wie die dynamische Programmierung.
Sie können auch andere Algorithmen wie SVM berücksichtigen.
quelle