Ich bin etwas verwirrt über die Vorteile gemischter Modelle in Bezug auf die prädiktive Modellierung. Da Vorhersagemodelle in der Regel dazu gedacht sind, Werte bisher unbekannter Beobachtungen vorherzusagen, erscheint es mir offensichtlich, dass ein gemischtes Modell nur durch seine Fähigkeit nützlich sein kann, Vorhersagen auf Bevölkerungsebene zu liefern (dh ohne Hinzufügen von zufälligen Effekten). Das Problem ist jedoch, dass meines Erachtens Vorhersagen auf Bevölkerungsebene, die auf gemischten Modellen basieren, erheblich schlechter sind als Vorhersagen, die auf Standard-Regressionsmodellen mit nur festen Effekten basieren.
Worum geht es also bei gemischten Modellen in Bezug auf Vorhersageprobleme?
BEARBEITEN. Das Problem ist folgendes: Ich habe ein gemischtes Modell (mit festen und zufälligen Effekten) und ein lineares Standardmodell nur mit festen Effekten angepasst. Wenn ich eine Kreuzvalidierung durchführe, erhalte ich eine folgende Hierarchie der Vorhersagegenauigkeit: 1) Gemischte Modelle bei der Vorhersage mit festen und zufälligen Effekten (dies funktioniert natürlich nur für Beobachtungen mit bekannten Niveaus von Zufallseffektvariablen, daher scheint dieser prädiktive Ansatz nicht zu funktionieren für reale prädiktive Anwendungen geeignet sein!); 2) lineares Standardmodell; 3) gemischtes Modell bei der Verwendung von Vorhersagen auf Bevölkerungsebene (also mit weggeworfenen zufälligen Effekten). Der einzige Unterschied zwischen dem linearen Standardmodell und dem gemischten Modell besteht in einem etwas unterschiedlichen Wert der Koeffizienten aufgrund unterschiedlicher Schätzmethoden (dh es gibt die gleichen Effekte / Prädiktoren in beiden Modellen, aber sie haben unterschiedliche zugeordnete Koeffizienten).
Meine Verwirrung läuft auf die Frage hinaus, warum ich jemals ein gemischtes Modell als Vorhersagemodell verwenden sollte, da die Verwendung eines gemischten Modells zur Erstellung von Vorhersagen auf Bevölkerungsebene im Vergleich zu einem linearen Standardmodell eine schlechtere Strategie zu sein scheint.
Antworten:
Es hängt von der Art der Daten ab, aber im Allgemeinen würde ich erwarten, dass das gemischte Modell die Modelle mit nur festen Effekten übertrifft.
Nehmen wir ein Beispiel: Modellieren Sie die Beziehung zwischen Sonnenschein und der Höhe der Weizenhalme. Wir haben eine Reihe von Messungen einzelner Stiele, aber viele der Stiele werden an denselben Stellen gemessen (die sich in Boden, Wasser und anderen Dingen, die die Höhe beeinflussen können, ähneln). Hier sind einige mögliche Modelle:
1) Höhe ~ Sonnenschein
2) Höhe ~ Sonnenschein + Ort
3) Höhe ~ Sonnenschein + (1 | Ort)
Wir wollen diese Modelle verwenden, um die Höhe neuer Weizenstängel vorherzusagen, wenn eine Schätzung des Sonnenscheins vorliegt, den sie erfahren werden. Ich werde die Parameterstrafe ignorieren, die Sie zahlen würden, wenn Sie viele Sites in einem Modell mit festen Effekten hätten, und nur die relative Vorhersagekraft der Modelle berücksichtigen.
Die wichtigste Frage hierbei ist, ob diese neuen Datenpunkte, die Sie vorhersagen möchten, von einer der von Ihnen gemessenen Sites stammen. Sie sagen, dies ist in der realen Welt selten, aber es passiert.
A) Neue Daten stammen von einer Site, die Sie gemessen haben
In diesem Fall übertreffen die Modelle 2 und 3 die Nummer 1. Beide verwenden relevantere Informationen (mittlerer Site-Effekt), um Vorhersagen zu treffen.
B) Neue Daten stammen von einer nicht gemessenen Site
Ich würde immer noch erwarten, dass Modell # 3 aus den folgenden Gründen besser abschneidet als Modell # 1 und # 2.
(i) Modell Nr. 3 gegen Nr. 1:
Mit Modell 1 werden Schätzungen erstellt, die zugunsten überrepräsentierter Websites voreingenommen sind. Wenn Sie von jeder Site eine ähnliche Anzahl von Punkten und eine einigermaßen repräsentative Stichprobe von Sites haben, sollten Sie von beiden ähnliche Ergebnisse erhalten.
(ii) Modell Nr. 3 gegenüber Nr. 2:
Warum ist Modell Nr. 3 in diesem Fall besser als Modell Nr. 2? Da zufällige Effekte die Schrumpfung ausnutzen, werden die Site-Effekte gegen Null geschrumpft. Mit anderen Worten, Sie werden weniger extreme Werte für Site-Effekte finden, wenn dieser als zufälliger Effekt angegeben wird, als wenn er als fester Effekt angegeben wird. Dies ist nützlich und verbessert Ihre Prognosefähigkeit, wenn die Populationsmittelwerte vernünftigerweise als aus einer Normalverteilung abgeleitet angesehen werden können (siehe Stein's Paradox in Statistics ). Wenn die Bevölkerung Mittel keine Normalverteilung folgen zu erwarten sind, dies könnte ein Problem sein, aber es ist in der Regel eine sehr vernünftige Annahme , und das Verfahren ist robust zu kleinen Abweichungen.
[Randnotiz: Standardmäßig verwendet die meiste Software beim Anpassen von Modell 2 eine der Stellen als Referenz und schätzt die Koeffizienten für die anderen Stellen, die die Abweichung von der Referenz darstellen. Es kann also den Anschein haben, als gäbe es keine Möglichkeit, einen Gesamtpopulationseffekt zu berechnen. Sie können dies jedoch berechnen, indem Sie den Durchschnitt über die Vorhersagen für alle einzelnen Standorte berechnen, oder indem Sie einfach die Kodierung des Modells so ändern, dass die Koeffizienten für jeden Standort berechnet werden.]
quelle
Folgemaßnahmen zu der hervorragenden Reaktion von mkt: Aus meiner persönlichen Erfahrung mit der Entwicklung von Vorhersagemodellen im Bereich der Krankenversicherung hat die Einbeziehung von Zufallseffekten in Vorhersagemodelle (einschließlich Modelle für maschinelles Lernen) eine Reihe von Vorteilen.
Ich werde oft gebeten, Modelle zu erstellen, die zukünftige Schadensergebnisse (z. B. zukünftige Gesundheitsausgaben, Aufenthaltsdauer usw.) auf der Grundlage der historischen Schadensdaten einer Person vorhersagen. Häufig gibt es mehrere Ansprüche pro Person mit entsprechenden Ergebnissen. Das Ignorieren der Tatsache, dass viele Behauptungen von demselben Patienten geteilt werden, würde wertvolle Informationen in einem Vorhersagemodell ausgeben.
Eine Lösung wäre, für jedes Mitglied im Dataset Indikatorvariablen für feste Effekte zu erstellen und mithilfe einer bestraften Regression die einzelnen festen Effekte auf Mitgliedsebene separat zu verkleinern. Wenn Ihre Daten jedoch Tausende oder Millionen von Mitgliedern enthalten, besteht eine effizientere Lösung sowohl unter rechnerischen als auch unter prädiktiven Gesichtspunkten darin, die festen Effekte auf der Ebene mehrerer Mitglieder als einen einzelnen Zufallseffektterm mit einer Normalverteilung darzustellen.
quelle