Ich weiß, das klingt vielleicht nicht nach einem Thema, aber hör mir zu.
Bei Stack Overflow und hier bekommen wir Stimmen für Beiträge, dies wird alles in tabellarischer Form gespeichert.
Z.B:
post id voter id vote type datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01
... und so weiter. Voting Typ 2 ist eine positive, Voting Typ 3 eine negative Bewertung. Sie können eine anonymisierte Version dieser Daten unter http://data.stackexchange.com abfragen
Es wird davon ausgegangen, dass ein Beitrag mit einer höheren Wahrscheinlichkeit positiv bewertet wird, wenn er den Wert -1 oder niedriger erreicht. Dies kann einfach eine Bestätigungsverzerrung sein, oder es kann tatsächlich verwurzelt sein.
Wie würden wir diese Daten analysieren, um diese Hypothese zu bestätigen oder zu leugnen? Wie würden wir den Effekt dieser Verzerrung messen?
Antworten:
Sie können ein Multistate-Modell oder eine Markov-Kette verwenden (das msm-Paket in R ist eine Möglichkeit, diese anzupassen). Sie können dann prüfen, ob die Übergangswahrscheinlichkeit von -1 nach 0 größer ist als von 0 nach 1, 1 nach 2 usw. Sie können auch die durchschnittliche Zeit von -1 im Vergleich zu den anderen betrachten, um festzustellen, ob sie kürzer ist .
quelle
Experiment durchführen. Stimmt jeden Tag die Hälfte der neuen Posts zu einer bestimmten Zeit nach dem Zufallsprinzip ab.
quelle
Zusammenfassung meiner Antwort. Ich mag die Markov-Kettenmodellierung, aber sie vermisst den "zeitlichen" Aspekt. Wenn Sie sich hingegen auf den zeitlichen Aspekt konzentrieren (z. B. durchschnittliche Zeit beiDies ist eine Zwischenstufe aus dem Fall, in dem Sie nur die Übergangswahrscheinlichkeit schätzen und aus dem Fall, in dem Sie nur die in einem bestimmten Zustand verbrachte Zeit messen. Ich hoffe das hilft.−1
Aber in Anlehnung an Ihre Frage nehmen Sie implizit an, dass Dies bedeutet, dass für eine deterministische Folge existiert so dass .
Innerhalb dieses Formalismus kann Ihre Frage wie folgt umformuliert werden: "Es ist wahrscheinlich, dass " (oder zumindest ist der Unterschied größer als a gegebene Schwelle).μ+−1−μ+0>0
Unter dieser Annahme ist es einfach zu zeigen, dass ein [homogener Markov-Prozess] [3] auf wobei der Generator durch gegeben istYt Z Q
Beantwortung der Frage (durch Vorschlagen eines Maximum-Likelihood-Schätzwerts für das statistische Problem) Nach dieser Neuformulierung wird das Problem gelöst, indem geschätzt und ein Test auf dessen Werten erstellt wird. Lassen Sie uns den Index ohne Verlust der Allgemeinheit reparieren und vergessen . Die Schätzung von (und ) kann vor der Beobachtung von erfolgen(μ+i) i μ+ μ−
Wenn Sie den Fall mit dem letzten Beobachtungsstand vergessen, stammen die erwähnten Paare aus einer Verteilung, die von und abhängt : Sie wird verteilt als (wobei Exp eine Zufallsvariable aus einer Exponentialverteilung ist und + oder -1 ist, je nachdem, wer das Maximum realisiert). Dann können Sie das folgende einfache Lemma verwenden (der Beweis ist einfach):μ+i μ−i (min(Exp(μ+i),Exp(μ−i)),η) η
Lemma Wenn und dann ist und .X+⇝Exp(μ+) X−⇝Exp(μ−) T=min(X+,X−)⇝Exp(μ++μ−) P(X+1<X−)=μ+μ++μ−
Dies impliziert, dass die Dichte von gegeben ist durch: wobei für die Dichtefunktion einer exponentiellen Zufallsvariablen ist mit Parameter . Aus diesem Ausdruck lässt sich leicht der Maximum-Likelihood-Schätzer von und :f(t,ϵ) (T,η)
Kommentare für fortgeschrittenere Ansätze
Wenn Sie Fälle berücksichtigen möchten, bei denen der letzte beobachtete Zustand ist (sicherlich klüger, weil es bei oft Ihre letzte Punktzahl ist ...), müssen Sie die Neuzuordnung ein wenig ändern. Die entsprechende Zensur ist relativ klassisch ...- 1i −1
Mögliche andere Ansätze können die Möglichkeit von
quelle