Ich bin ein Gymnasiast und arbeite an einem Computerprogrammierungsprojekt, aber ich habe nicht viel Erfahrung mit Statistik und Modellierung von Daten außerhalb eines High School Statistikkurses, daher bin ich ein bisschen verwirrt.
Grundsätzlich habe ich eine ziemlich große Liste (vorausgesetzt, sie ist groß genug, um die Annahmen für statistische Tests oder Maßnahmen zu erfüllen) von Zeiten, in denen sich jemand zum Drucken eines Dokuments entschlossen hat. Auf der Grundlage dieser Liste möchte ich ein statistisches Modell erstellen, das die wahrscheinlichste Zeit für den nächsten Druckauftrag unter Berücksichtigung aller vorherigen Ereigniszeiten vorhersagt.
Ich habe gelesen , schon dies , aber die Antworten genau das tun helfen nicht mit dem, was ich für mein Projekt im Sinne habe. Ich habe einige zusätzliche Nachforschungen angestellt und festgestellt, dass ein Hidden-Markov-Modell es mir wahrscheinlich ermöglichen würde, dies genau zu tun, aber ich kann keinen Link zum Generieren eines Hidden-Markov-Modells mit nur einer Liste von Zeiten finden. Ich fand auch, dass die Verwendung eines Kalman-Filters in der Liste nützlich sein kann, möchte aber im Grunde genommen mehr Informationen von jemandem erhalten, der sie tatsächlich verwendet hat und deren Einschränkungen und Anforderungen kennt, bevor er nur etwas ausprobiert und hofft, dass es funktioniert.
Vielen Dank!
Antworten:
Versteckte Markov-Modelle würden angewendet, wenn die Daten zufällige Emissionen eines zugrunde liegenden nicht beobachteten Markov-Modells wären; Ich würde das nicht ausschließen, aber es scheint kein sehr natürliches Modell zu sein.
Ich würde über Punktprozesse nachdenken , die gut zu Ihren Daten passen. Es wird viel daran gearbeitet, Erdbeben (obwohl ich nicht viel darüber weiß) und sogar Verbrechen vorherzusagen .
Wenn viele verschiedene Personen drucken und Sie nur die Zeiten sehen, aber nicht die individuellen Identitäten, könnte ein Poisson-Prozess gut funktionieren (die Überlagerung mehrerer unabhängiger Punktprozesse ist ungefähr Poisson), obwohl er inhomogen sein müsste (die Die Wahrscheinlichkeit eines Punktes variiert mit der Zeit.) Es ist weniger wahrscheinlich, dass die Leute um 3 Uhr morgens drucken als um 3 Uhr nachmittags.
Für das inhomogene Poisson-Prozessmodell wäre es der Schlüssel, eine gute Schätzung der Wahrscheinlichkeit eines Druckauftrags zu einer bestimmten Zeit an einem bestimmten Tag zu erhalten.
Wenn diese Druckzeiten jedoch für Schüler in einem Klassenzimmer gelten, kann dies recht schwierig sein, da sie wahrscheinlich nicht unabhängig sind und der Poisson-Prozess daher nicht gut funktioniert.
Hier ist ein Link zu einem Artikel über das Strafantragsverfahren.
quelle
Basierend auf der Vorhersage der wahrscheinlichen Zeit könnte die Verwendung der multivariaten Bayesian Scan-Statistik (MBSS) hilfreich sein. Dieses MBSS hat den Vorteil, die Aktualität und Genauigkeit der Ereigniserkennung zu verbessern.
quelle