Testen Sie, ob eine Markov-Kette einer theoretischen entspricht

8

Ich habe eine empirische Übergangszählmatrix Q. Ich habe eine theoretische Markov-Kette erster Ordnung P. Sagen wir, N ist die Anzahl der Übergänge. Ich möchte testen, ob Q mit P kompatibel ist. Ist es richtig, die theoretische Zählübergangsmatrix (N * P) zu finden, die die Chi-Quadrat-Statistik berechnet? i,jK(Qij(NPij))2NPij und dann Berechnung des p-Wertes einerχ2-Verteilung mitK(K1)Freiheitsgraden?

Giorgio Spedicato
quelle
2
Ich bin nicht sehr vertraut mit Chi-Quadrat-Tests, aber das Überfliegen scheint häufig für multinomiale Daten verwendet zu werden (z . B. hier ). Ich würde denken, dass jede Zeile von P einer multinomialen Verteilung entsprechen sollte? Dann könnten Sie ni für Zeile i , dh die Anzahl der Übergänge "von i ". Das heißt, " N " kann je nach Startzustand variieren?
GeoMatt22

Antworten:

5

ipi=P i , :

Pij=Pr[ji],Qij=t=1N[xt=i&xt+1=j]
i
pi=Pi,:,ni=j=1KQij

Ich bin nicht sicher, ob Sie alle Zeilen zusammenfassen können, da die "Anzahl der Versuche" zwischen den Zeilen variiert.

Sagen Sie zum Beispiel und Ihre Daten sind . Es gibt also Übergänge, wobei von , aber von und nur und von . Daher würde ich denken, dass Ihr Vertrauen in im Allgemeinen höher sein sollte als Ihr Vertrauen in .x = [ 1 , 1 , 2 , 1 , 2 , 3 , 1 , 2 ] N = 7 n 1 = 4 x = 1 n 2 = 2 x = 2 n 3 = 1 x = 3 p 1 p 3K=3x=[1,1,2,1,2,3,1,2]N=7n1=4x=1n2=2x=2n3=1x=3p^1p^3

(Im Extremfall war für dieses Beispiel vielleicht tatsächlich , aber Sie haben überhaupt keine Daten zu diesen Übergängen, da Behandlung von "Abwesenheit von Beweisen als Beweis für Abwesenheit" erscheint mir hier problematisch.)4 n 4 = 0K4n4=0

Ich bin mit Chi-Quadrat-Tests nicht sehr vertraut, aber dies legt nahe, dass Sie die Zeilen möglicherweise unabhängig behandeln möchten (dh nur über summieren und anstelle von ). Diese Argumentation scheint nicht spezifisch für den Chi-Quadrat-Test zu sein, sollte also auch für jeden anderen Signifikanztest gelten, den Sie möglicherweise verwenden (z . B. genaues Multinomial ).n i N.jniN

Das Hauptproblem besteht darin, dass die Übergangswahrscheinlichkeiten bedingt sind , sodass für jeden Matrixeintrag nur die Übergänge relevant sind, die seine Vorbedingung erfüllen. Vermutlich erfüllt die Übergangsmatrix vermutlich , daher sollte die "empirische Übergangsmatrix" .jPij=1P^ij=Qij/ni


Update: Als Antwort auf die Anfrage von OP eine Klarstellung der "Testparameter".

Wenn es Zustände in der Markov-Kette gibt, dh , dann hat die entsprechende Multinomialverteilung für Zeile den Wahrscheinlichkeitsvektor und Anzahl der Versuche , wie oben angegeben.KPRK×KipiRKniN

Es wird also Kategorien geben, und der Wahrscheinlichkeitsvektor wird Freiheitsgrade haben, als . Für Zeile die entsprechende Statistik was asymptotisch sein wird Folgen Sie einem Chi-Quadrat, das mit Freiheitsgraden verteilt ist (wie hier und hier angegeben ). Siehe auch hier für eine Diskussion darüber, wann der Test angemessen ist, und für alternative Tests, die möglicherweise geeigneter sind.KpiK1j=1K(pi)j=1iχ2

χi2=j(QijniPij)2niPij
K1χ2

Es kann möglich sein, einen "konzentrierten Test" durchzuführen, vorausgesetzt, folgt einer Chi-Quadrat-Verteilung mit -Dofs (dh Summieren von Dofs über Zeilen). Ich bin mir jedoch nicht sicher, ob das als unabhängig behandelt werden kann. In jedem Fall scheinen die zeilenweisen Tests informativer zu sein, weshalb sie einem konzentrierten Test vorzuziehen sind.χP2=iχi2K(K1)χi2

GeoMatt22
quelle
Kluge Idee, es als multinomiale Verteilung zu behandeln. Die Summe von zwei Chi-Quadrat-Variablen ist Chi-Quadrat, sodass die Teststatistik für jede Zeile separat berechnet und summiert werden kann, um eine neue Chi-Quadrat-Teststatistik zu erhalten. Dies wird Freiheitsgrade habenNK
Hugh
@ Hugh Ich bin nicht vertraut genug, um zu bewerten, aber das könnte sehr gut vernünftig sein. Mein Hauptpunkt war mehr, dass der Ansatz "Zeile für Zeile" gerechtfertigt und informativer erscheint als der Ansatz "konzentriert". (Ich denke, ein sekundärer Punkt ist, dass alle Arbeiten am Chi-Quadrat für Multinome, z. B. asymptotische Konvergenz, ein guter Ausgangspunkt sein könnten. Alles, was ich über diese Themen weiß, habe ich gerade durch das Überfliegen von Lebenslauf-Posts gelernt, also ist das ungefähr alles, was ich habe kann anbieten!) Sie könnten erwägen, eine kurze Antwort zu veröffentlichen, die den Chi-Quadrat-Aspekt direkter anspricht.
GeoMatt22
@ GeoMatt22 ... Ist es also in Ordnung, dass die Anzahl der Freiheitsgrade für den Chi-Quadrat-Test gleich ist und N die Größe des dtmc ist? N2N
Giorgio Spedicato
Giorgio, siehe mein Update.
GeoMatt22
@ Hugh bitte meine aktualisierte Antwort sehen. Beachten Sie, dass Wikipedia sagt "Es sollte beachtet werden, dass die Freiheitsgrade nicht auf der Anzahl der Beobachtungen basieren". Ich bin mir nicht sicher, ob meine -Dofs für einen "konzentrierten Test" korrekt sind, aber auch unsicher, woher Ihre Dofs kommen würden! Irgendeine Klarstellung? N - K.K(K1)NK
GeoMatt22