Ich bin ein großer Fußballfan und auch an maschinellem Lernen interessiert. Als Projekt für meinen ML-Kurs versuche ich, ein Modell zu entwickeln, das die Gewinnchance für die Heimmannschaft unter Berücksichtigung der Namen der Heimmannschaft und der Auswärtsmannschaft vorhersagt. (Ich frage meinen Datensatz ab und erstelle dementsprechend Datenpunkte basierend auf früheren Spielen zwischen diesen beiden Teams.)
Ich habe Daten für mehrere Spielzeiten für alle Teams, habe jedoch die folgenden Probleme, bei denen ich Ratschläge geben möchte. Die EPL (englische Premier League) hat 20 Mannschaften, die zu Hause und auswärts gegeneinander spielen (insgesamt 380 Spiele in einer Saison). Somit spielen zwei Teams in jeder Saison nur zweimal gegeneinander.
Ich habe Daten für die letzten 10+ Jahre, was zu 2 * 10 = 20 Datenpunkten für die beiden Teams führt. Ich möchte jedoch nicht über die letzten 3 Jahre hinausgehen, da ich glaube, dass sich die Teams im Laufe der Zeit erheblich ändern (ManCity, Liverpool) und dies nur zu mehr Fehlern im System führen würde.
Dies ergibt also nur etwa 6-8 Datenpunkte für jedes Teampaar. Ich habe jedoch mehrere Funktionen (bis zu 20+) für jeden Datenpunkt, wie Vollzeitziele, Halbzeitziele, Pässe, Schüsse, Gelb, Rot usw. für beide Teams, sodass ich Funktionen wie die aktuelle Form und die aktuelle Version hinzufügen kann Heimatform, aktuelle Auswärtsform usw.
Die Idee, nur 6-8 Datenpunkte zum Trainieren zu haben, scheint mir jedoch falsch. Irgendwelche Gedanken darüber, wie ich diesem Problem begegnen könnte? (wenn dies überhaupt ein Problem ist)
Antworten:
Was ist mit der Verbesserung Ihres Datensatzes, indem Sie auch einige Daten über die Spiele gegen denselben Gegner berücksichtigen?
Beispiel:
Darüber hinaus sind diese Daten meiner Meinung nach besser als die von Ihnen vorgeschlagenen Daten, da die Teams des letzten Jahres oft sehr unterschiedliche Teams sind.
quelle