Sind gemischte Modelle als Vorhersagemodelle nützlich?

24

Ich bin etwas verwirrt über die Vorteile gemischter Modelle in Bezug auf die prädiktive Modellierung. Da Vorhersagemodelle in der Regel dazu gedacht sind, Werte bisher unbekannter Beobachtungen vorherzusagen, erscheint es mir offensichtlich, dass ein gemischtes Modell nur durch seine Fähigkeit nützlich sein kann, Vorhersagen auf Bevölkerungsebene zu liefern (dh ohne Hinzufügen von zufälligen Effekten). Das Problem ist jedoch, dass meines Erachtens Vorhersagen auf Bevölkerungsebene, die auf gemischten Modellen basieren, erheblich schlechter sind als Vorhersagen, die auf Standard-Regressionsmodellen mit nur festen Effekten basieren.

Worum geht es also bei gemischten Modellen in Bezug auf Vorhersageprobleme?

BEARBEITEN. Das Problem ist folgendes: Ich habe ein gemischtes Modell (mit festen und zufälligen Effekten) und ein lineares Standardmodell nur mit festen Effekten angepasst. Wenn ich eine Kreuzvalidierung durchführe, erhalte ich eine folgende Hierarchie der Vorhersagegenauigkeit: 1) Gemischte Modelle bei der Vorhersage mit festen und zufälligen Effekten (dies funktioniert natürlich nur für Beobachtungen mit bekannten Niveaus von Zufallseffektvariablen, daher scheint dieser prädiktive Ansatz nicht zu funktionieren für reale prädiktive Anwendungen geeignet sein!); 2) lineares Standardmodell; 3) gemischtes Modell bei der Verwendung von Vorhersagen auf Bevölkerungsebene (also mit weggeworfenen zufälligen Effekten). Der einzige Unterschied zwischen dem linearen Standardmodell und dem gemischten Modell besteht in einem etwas unterschiedlichen Wert der Koeffizienten aufgrund unterschiedlicher Schätzmethoden (dh es gibt die gleichen Effekte / Prädiktoren in beiden Modellen, aber sie haben unterschiedliche zugeordnete Koeffizienten).

Meine Verwirrung läuft auf die Frage hinaus, warum ich jemals ein gemischtes Modell als Vorhersagemodell verwenden sollte, da die Verwendung eines gemischten Modells zur Erstellung von Vorhersagen auf Bevölkerungsebene im Vergleich zu einem linearen Standardmodell eine schlechtere Strategie zu sein scheint.

sztal
quelle
Wie machst du deine Vorhersagen? Verwenden Sie die zufälligen Effekte nicht oder fixieren Sie Ihre zufälligen Effekte auf ihre Mittelwerte? (Dh, werfen Sie die zufälligen Effekte zur Vorhersagezeit aus?)
Wayne
Wenn ich zufällige Effekte richtig verstehe, ist es dasselbe, zufällige Effekte auf ihre Mittelwerte festzulegen, als sie wegzuwerfen, da zufällige Effekte (zumindest in der von mir verwendeten Parametrisierung) aus einer Normalverteilung von Mittelwert 0 und Varianzsigma erzeugt werden. Da ich jedoch die Werte der Zufallseffektvariablen für neue Beobachtungen nicht kenne, verwende ich zur Vorhersagezeit natürlich keine Zufallseffekte, sondern nur feste Effekte.
Sztal
1
Vielleicht möchten Sie in diesem Artikel nachschauen: "Zur Wirksamkeit gemischter modellbasierter logistischer Regressionsklassifikatoren für Längsschnittdaten", search.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/…
Jon
1
sztal: Sie haben natürlich recht. Ich versuchte schnell zu antworten und sagte etwas, das nicht aussagekräftig war. Ich habe das Papier ( gllamm.org/JRSSApredict_09.pdf ) gefunden, das die Vorhersage in Abschnitt 7 behandelt. Ich muss sagen, dass ich es nicht zu einem Kommentar zusammenfassen kann, was darauf hinweist, dass ich es nicht wirklich verstehe.
Wayne
Eine letzte Frage: Wenn Sie Festeffekte nur mit gemischten Effekten vergleichen, verwenden Sie in jedem die gleichen Festeffekte, nur mit der Hinzufügung eines Abschnitts auf individueller Ebene? Es fühlt sich so an, als ob Sie in dieser Situation sehr ähnliche Effekte haben sollten, außer mit einer besseren Vorstellung Ihres wahren Vorhersageintervalls.
Wayne

Antworten:

17

Es hängt von der Art der Daten ab, aber im Allgemeinen würde ich erwarten, dass das gemischte Modell die Modelle mit nur festen Effekten übertrifft.

Nehmen wir ein Beispiel: Modellieren Sie die Beziehung zwischen Sonnenschein und der Höhe der Weizenhalme. Wir haben eine Reihe von Messungen einzelner Stiele, aber viele der Stiele werden an denselben Stellen gemessen (die sich in Boden, Wasser und anderen Dingen, die die Höhe beeinflussen können, ähneln). Hier sind einige mögliche Modelle:

1) Höhe ~ Sonnenschein

2) Höhe ~ Sonnenschein + Ort

3) Höhe ~ Sonnenschein + (1 | Ort)

Wir wollen diese Modelle verwenden, um die Höhe neuer Weizenstängel vorherzusagen, wenn eine Schätzung des Sonnenscheins vorliegt, den sie erfahren werden. Ich werde die Parameterstrafe ignorieren, die Sie zahlen würden, wenn Sie viele Sites in einem Modell mit festen Effekten hätten, und nur die relative Vorhersagekraft der Modelle berücksichtigen.

Die wichtigste Frage hierbei ist, ob diese neuen Datenpunkte, die Sie vorhersagen möchten, von einer der von Ihnen gemessenen Sites stammen. Sie sagen, dies ist in der realen Welt selten, aber es passiert.

A) Neue Daten stammen von einer Site, die Sie gemessen haben

In diesem Fall übertreffen die Modelle 2 und 3 die Nummer 1. Beide verwenden relevantere Informationen (mittlerer Site-Effekt), um Vorhersagen zu treffen.

B) Neue Daten stammen von einer nicht gemessenen Site

Ich würde immer noch erwarten, dass Modell # 3 aus den folgenden Gründen besser abschneidet als Modell # 1 und # 2.

(i) Modell Nr. 3 gegen Nr. 1:

Mit Modell 1 werden Schätzungen erstellt, die zugunsten überrepräsentierter Websites voreingenommen sind. Wenn Sie von jeder Site eine ähnliche Anzahl von Punkten und eine einigermaßen repräsentative Stichprobe von Sites haben, sollten Sie von beiden ähnliche Ergebnisse erhalten.

(ii) Modell Nr. 3 gegenüber Nr. 2:

Warum ist Modell Nr. 3 in diesem Fall besser als Modell Nr. 2? Da zufällige Effekte die Schrumpfung ausnutzen, werden die Site-Effekte gegen Null geschrumpft. Mit anderen Worten, Sie werden weniger extreme Werte für Site-Effekte finden, wenn dieser als zufälliger Effekt angegeben wird, als wenn er als fester Effekt angegeben wird. Dies ist nützlich und verbessert Ihre Prognosefähigkeit, wenn die Populationsmittelwerte vernünftigerweise als aus einer Normalverteilung abgeleitet angesehen werden können (siehe Stein's Paradox in Statistics ). Wenn die Bevölkerung Mittel keine Normalverteilung folgen zu erwarten sind, dies könnte ein Problem sein, aber es ist in der Regel eine sehr vernünftige Annahme , und das Verfahren ist robust zu kleinen Abweichungen.

[Randnotiz: Standardmäßig verwendet die meiste Software beim Anpassen von Modell 2 eine der Stellen als Referenz und schätzt die Koeffizienten für die anderen Stellen, die die Abweichung von der Referenz darstellen. Es kann also den Anschein haben, als gäbe es keine Möglichkeit, einen Gesamtpopulationseffekt zu berechnen. Sie können dies jedoch berechnen, indem Sie den Durchschnitt über die Vorhersagen für alle einzelnen Standorte berechnen, oder indem Sie einfach die Kodierung des Modells so ändern, dass die Koeffizienten für jeden Standort berechnet werden.]

mkt - Setzen Sie Monica wieder ein
quelle
Danke für die Antwort. Ich bin ziemlich überzeugt. Leider erinnere ich mich jetzt nicht an den genauen Fall, der meine Frage motiviert hat, aber ich denke, dass die schlechte Leistung eines gemischten Modells in meinem Fall auf recht unregelmäßige Verteilungen von Prädiktoren zurückzuführen sein könnte, die ich im Modell verwendet habe. Ich werde die Antwort bald akzeptieren, aber da die Frage ein wenig Aufmerksamkeit auf sich gezogen hat, werde ich ein paar Tage länger warten, damit jemand vielleicht eine genauere Erklärung abgeben kann (vielleicht mit einigen Beispielen).
Sztal
1
Gut gesagt. Es sollte beachtet werden, dass eine heirarchische Vorhersage der ortsspezifischen Effekte, die zu den zufälligen Effekten führen, gleichbedeutend mit einer Reihe von einzelnen ebenen und ortsspezifischen festen Effekten sein sollte , um vorherzusagen, welcher zufällige Schnittpunkt oder welche zufällige Steigung empirisch aus dem Modell geschätzt wurde im Modell.
AdamO
8

Folgemaßnahmen zu der hervorragenden Reaktion von mkt: Aus meiner persönlichen Erfahrung mit der Entwicklung von Vorhersagemodellen im Bereich der Krankenversicherung hat die Einbeziehung von Zufallseffekten in Vorhersagemodelle (einschließlich Modelle für maschinelles Lernen) eine Reihe von Vorteilen.

Ich werde oft gebeten, Modelle zu erstellen, die zukünftige Schadensergebnisse (z. B. zukünftige Gesundheitsausgaben, Aufenthaltsdauer usw.) auf der Grundlage der historischen Schadensdaten einer Person vorhersagen. Häufig gibt es mehrere Ansprüche pro Person mit entsprechenden Ergebnissen. Das Ignorieren der Tatsache, dass viele Behauptungen von demselben Patienten geteilt werden, würde wertvolle Informationen in einem Vorhersagemodell ausgeben.

Eine Lösung wäre, für jedes Mitglied im Dataset Indikatorvariablen für feste Effekte zu erstellen und mithilfe einer bestraften Regression die einzelnen festen Effekte auf Mitgliedsebene separat zu verkleinern. Wenn Ihre Daten jedoch Tausende oder Millionen von Mitgliedern enthalten, besteht eine effizientere Lösung sowohl unter rechnerischen als auch unter prädiktiven Gesichtspunkten darin, die festen Effekte auf der Ebene mehrerer Mitglieder als einen einzelnen Zufallseffektterm mit einer Normalverteilung darzustellen.

RobertF
quelle