Vorhersageauswertungsmetrik für Panel- / Längsschnittdaten

Ich möchte verschiedene Modelle evaluieren, die auf monatlicher Ebene Verhaltensvorhersagen liefern. Die Daten sind ausgewogen und 100.000 und 12. Das Ergebnis ist die Teilnahme an einem Konzert in einem bestimmten Monat, sodass es für ~ 80% der Menschen in jedem Monat Null ist, aber es gibt einen langen rechten Schwanz schwerer Benutzer. Die Vorhersagen, die ich gemacht habe, scheinen die Zählung des Ergebnisses nicht zu respektieren: Bruchkonzerte sind weit verbreitet. $n=$ $T=$

Ich weiß nichts über die Modelle. I beobachten nur 6 verschiedene Blackbox-Vorhersagen für jede Person pro Monat. Ich habe ein zusätzliches Jahr an Daten, die die Modellbauer nicht für die Schätzung hatten (obwohl die Konzertbesucher gleich bleiben), und ich möchte messen, wo jeder gut abschneidet (in Bezug auf Genauigkeit und Präzision). Zum Beispiel, sagt ein Modell gut für häufige Konzertbesucher voraus, scheitert aber für die Sofakartoffeln? Ist die Vorhersage für Januar besser als die Vorhersage für Dezember? Alternativ wäre es schön zu wissen, dass die Vorhersagen es mir ermöglichen, Menschen in Bezug auf die tatsächlichen Werte korrekt einzustufen, auch wenn der genauen Größe nicht vertraut werden kann. $\hat y_1,...,\hat y_6$

Mein erster Gedanke war, eine Regression mit festen Effekten von tatsächlichen auf vorhergesagten und zeitlichen Dummies durchzuführen und die RMSEs oder für jedes Modell zu betrachten. Dies beantwortet jedoch nicht die Frage, wo jedes Modell gut abschneidet oder ob die Unterschiede signifikant sind (es sei denn, ich starte den RMSE). Die Verteilung des Ergebnisses beunruhigt mich auch bei diesem Ansatz. $R^2$

Meine zweite Idee war, das Ergebnis in 0, 1-3 und 3+ zu unterteilen und die Verwirrungsmatrix zu berechnen, aber dies ignoriert die Zeitdimension, es sei denn, ich mache 12 davon. Es ist auch ziemlich grob.

Mir sind die Stata-Befehle concordvon TJ Steichen und NJ Cox bekannt - die die by()Option haben, aber dafür müssten die Daten auf jährliche Summen reduziert werden. Dies berechnet unter anderem den Konkordanzkorrelationsindex von Lin mit Konfidenzintervallen. CCC reicht von -1 bis 1, mit perfekter Übereinstimmung bei 1.

Es gibt auch Harrells (berechnet von R. Newson), das die Option hat, aber ich bin nicht sicher, ob ich damit mit den Paneldaten umgehen kann. Dies gibt Ihnen Konfidenzintervalle. Harrells c ist die Verallgemeinerung des Bereichs unter einer ROC-Kurve (AUC) für ein kontinuierliches Ergebnis. Es ist der Anteil aller Paare, der so geordnet werden kann, dass das Subjekt mit der höheren Vorhersage tatsächlich das höhere Ergebnis hat. Also ist für zufällige Vorhersagen für ein perfekt unterscheidendes Modell. Siehe Harrells Buch , S.493 $c$ somersdcluster $c=0.5$ $c=1$

Wie würden Sie dieses Problem angehen? Würden Sie vorschlagen, Statistiken wie MAPE zu berechnen, die in Prognosen häufig vorkommen?

Bisher nützliche Dinge:

Folien auf einer Version mit wiederholter Messung von Lins Konkordanzkorrelationskoeffizient

repeated-measures predictive-models stata panel-data validation Dimitriy V. Masterov
quelle

Wir müssen mehr über das Verhalten wissen. Ist es ordinal / binär / stetig? Liegt Ihr Interesse an der Vorhersage oder Vorhersage der Ergebnisse eines Individuums, da dieses Experiment in Längsrichtung durchgeführt wird? Modelle mit gemischten Effekten werden zur Inferenz und nicht zur Vorhersage verwendet. Sie funktionieren nicht, da Sie zur Vorhersage eine Schätzung des zufälligen Effekts benötigen.

AdamO

Das tatsächliche Verhalten ist entweder zählt oder kontinuierlich. Die Vorhersagen sind alle kontinuierlich. Ich würde gerne sehen, wie gut die monatlichen Vorhersagen auf individueller Ebene sind.

Dimitriy V. Masterov

\hat{Y_{i = 12}} = f (X_{i = 12, 11, \dots, 1}, Y_{i = 11, 10, \dots, 1}

$\widehat{Y_{i=12}} = f(X_{i=12, 11, \cdots, 1}, Y_{i=11, 10, \cdots, 1}$

\hat{Y_{i = I}} = f (X_{i = I, I - 1, \dots, 1}, Y_{i = I - 1, I - 2, \dots, 1}

$\widehat{Y_{i=I}} = f(X_{i=I, I-1, \cdots, 1}, Y_{i=I-1, I-2, \cdots, 1}$

\hat{Y_{i}} = f (X_{i})

$\widehat{Y_{i}} = f(X_{i})$

i

$i$

{\hat{Y}}_{i, 1} = f (Y_{i, t - 1}, X_{i, t}) .

$\hat Y_{i,1}=f(Y_{i,t-1},X_{i,t}).$

{\hat{Y}}_{i, 2} = f ({\hat{Y}}_{i, 1}, X_{i, 2})

$\hat Y_{i,2}=f(\hat Y_{i,1},X_{i,2})$

Y_{i, t}

$Y_{i,t}$

{\hat{Y}}_{i, t}

$\hat Y_{i,t}$

Schätzung impliziert Parameterschätzung, die Teil des "Trainings" für ein Vorhersagemodell sein kann, aber ich denke, Sie wollen damit sagen, dass Ihre Stichprobe zum Training eines Vorhersagemodells verwendet wird. Was Sie hier angeben, ist ein bedingter Semi-Markov-Prozess und hat einzigartige Anwendungen in der Prognose.

AdamO

Um die Vorhersagefähigkeit einer Semi-Markov-Prognose zu bewerten, stehen je nach Stichprobengröße und anderen verfügbaren Informationen verschiedene Methoden zur Verfügung.

Zur Bewertung eines Vorhersage- / Prognosemodells haben Sie die Möglichkeit einer Kreuzvalidierung (insbesondere einer ausgelassenen oder iterativen Kreuzvalidierung mit geteilten Stichproben), bei der ein Modell in einer "Trainings" -Stichprobe geschätzt und die Modellunsicherheit in einer "Validierung" bewertet wird. Stichprobe. Abhängig von der Verteilung des Ergebnisses stehen eine Reihe von Maßnahmen zur Verfügung, mit denen Sie ein Modell aus einer Gruppe geeigneter Modelle auswählen können. Bei allgemeinen nichtparametrischen Maßnahmen zur Modellauswahl mögen die Leute AIC und BIC wirklich, insbesondere letztere.

CCC- und C-Statistiken werden verwendet, um binäre Querschnittsvorhersagen wie aus Tests / Assays auszuwerten. Sie müssen sie daher ausschließen, wenn Sie beispielsweise BMI oder IQ vorhersagen. Sie messen die Kalibrierung (wie den Hosmer Lemeshow-Test) und die sogenannte Risikostratifizierungskapazität. Keine intuitive Verbindung zu kontinuierlichen Ergebnissen, zumindest nicht so weit ich das beurteilen kann.

RMSE hingegen wird zur Bewertung kontinuierlicher Vorhersagen verwendet (außer bei Risikoprognosen, bei denen RMSE als Brier-Score bezeichnet wird, ein ziemlich archaisches und veraltetes Modellbewertungsinstrument). Dies ist ein hervorragendes Werkzeug und wird wahrscheinlich verwendet, um mehr als 80% der Vorhersagemodelle zu kalibrieren, denen wir täglich begegnen (Wettervorhersagen, Energiebewertungen, MPG für Fahrzeuge usw.).

Eine Einschränkung bei der Validierung oder Neuabtastung von Split-Stichproben zur Bewertung von Prognosemodellen besteht darin, dass Sie möglicherweise nur dann an zukünftigen Ergebnissen interessiert sind, wenn Ihre Stichprobe Sie bei der Vorhersage vergangener Ergebnisse zurücklässt. Tu das nicht! Es spiegelt nicht die Modellanwendung wider und kann die Auswahl stark negativ beeinflussen. Führen Sie alle verfügbaren Informationen vorwärts und prognostizieren Sie zukünftige, nicht beobachtete Ergebnisse in allen verfügbaren Fällen.

Nahezu jedes Buch über angewandte lineare Modelle behandelt Vorhersage, RMSE und die Nuancen des Trainings und der Validierung von Modellen. Ein guter Anfang wäre Kutner, Nachtsheim, Neter, Li, die auch Diggles "Zeitreihenanalyse", Diggle Heagerty Zeger Lis "Longitudinal Data Analysis" und möglicherweise Harrells "Regressionsmodellierungsstrategien" in Betracht ziehen.

AdamO
quelle

CCC und Harrells c können mit kontinuierlichen Ergebnissen verwendet werden. CCC hat auch eine wiederholte Maßnahmenumsetzung. Siehe die Referenzen / Links, die ich in der Frage hinzugefügt habe.

Dimitriy V. Masterov

Ist egal. Du klassifizierst nicht.

AdamO

Vorhersageauswertungsmetrik für Panel- / Längsschnittdaten

Antworten: