Wie identifiziere ich Ausreißer und führe eine Modelldiagnose für ein lme4-Modell durch?

7

Ich muss Ausreißer und hohe Hebelpunkte identifizieren und eine Modelldiagnose in einem lme4Modell durchführen. Für Ausreißer und hohe Hebelpunkte wäre es schön, einfach ein Diagramm zur visuellen Inspektion zu erstellen, das jedoch nicht ausreicht. Ich habe 10.800 Datenpunkte und muss jeden Punkt über einen Analyse- oder Computertest entweder als Ausreißer / High-Leverage oder nicht als Ausreißer / High-Leverage markieren . Nach der Identifizierung von Ausreißern / Punkten mit hohem Hebel werde ich einen separaten Prozess durchlaufen, um zu entscheiden, ob die Punkte aus dem Datensatz ausgeschlossen werden sollen oder nicht.

Der Ausschluss von Punkten berücksichtigt zusätzlich zu der oben erwähnten automatisierten Identifizierung die vorherige detaillierte Analyse der Rohdatenquelle jeder Beobachtung (eine Audioaufzeichnung). Hier bezeichne ich diesen Prozess als "selektives Löschen".

Ich muss auch verstehen, ob meine Ausreißer auf "marginalen" oder "bedingten" Residuen basieren sollten und ob meine Hebelwirkung auf festen oder festen plus zufälligen Effekten basieren sollte. Für Definitionen von "marginal" und "bedingt" sowie mögliche Definitionen von Hebelwirkung verfolge ich Diagnose und Behandlung für lineare gemischte Modelle , Singer et al., 2013 .

Dh mit einem gemischten Modell der Form ... Wobei eine symmetrische, positive Definition ist Matrix. Mit marginal meine ich Residuen der Form: Mit bedingt meine ich Residuen der Form: Meine Fragen sind:

y=Xβ+Zb+e
eN(0,σ2I)
bN(0,G)
G
ζ=yE[y]=yXβ
e=yXβZb
  1. Wie man Ausreißer identifizieren über ein automatisiertes Verfahren auf einem Basis - lme4Modell.
  2. Ob marginale oder bedingte Residuen verwendet werden sollten, um Kandidaten für die selektive Löschung zu identifizieren.
  3. Welche Art von Residuen sollte zur Beurteilung von Normalität, Linearität, Homoskedastizität usw. verwendet werden?
  4. Wie man hohe Hebelpunkte zum Zwecke der selektiven Löschung identifiziert und ob man Hebel aus festen oder allen Effekten verwendet (siehe Singer et al. , Oben).
  5. Wie kann man testen, ob alsbN(0,G) , dh als allgemeines Multi-Variate-Normal? Wird dies einfach durch Betrachten der QQ-Diagramme der zufälligen Effekte erreicht? Was ist, wenn Kovarianzen hat, dh nicht-diagonale Terme ungleich Null? Ist es immer noch ausreichend, eindimensionale QQ-Diagramme für jeden zufälligen Effekt zu betrachten, um diese Art von Normalität zu bewerten? Oder ist eine Transformation erforderlich? G
clarpaul
quelle
Haben Sie vor allem die Originaldaten, Ihre angepassten Daten und Ihre Residuen aufgezeichnet?
usεr11852
Ich nehme an, Sie meinen das Zeichnen von Originaldaten gegen angepasste Daten und Residuen gegen angepasste Daten? Für Residuen stelle ich mir vor, dass Handlungen von Rand und Bedingung mir verschiedene Dinge erzählen, aber ich bin nicht sicher, wie ich diese interpretieren soll.
Clarpaul
Ja; Sie kümmern sich in erster Instanz um die bedingten Residuen.
usεr11852

Antworten:

9

(Dies begann als Kommentar, schien aber zu lang zu werden.)

Diese Frage wird möglicherweise weniger beachtet, als sie sonst verdient, da sie sehr weit gefasst ist (unter anderem haben Sie hier 5 separate Fragen gestellt). Ein paar Antworten:

  • Bedingte und marginale Residuen bedeuten nur verschiedene Dinge. Ich bin mir nicht sicher, ob es hier eine "richtige Antwort" gibt - Sie würden nur nach verschiedenen Arten von Ausreißern / Hebeleffekten fragen. Im Allgemeinen scheint es, dass bedingte Residuen (dh re.form=NULLoder die Standardeinstellung in lme4) sinnvoller sind.
  • Beachten Sie, dass viele der Einflussmaße, die Sie erhalten (z. B. durch hatvalues.merMod(), siehe unten), von den geschätzten Varianz-Kovarianz-Matrizen der zufälligen Effekte abhängig sind . Dies unterscheidet sich von der Frage, ob Sie auf bedingte Modi / BLUPs konditionieren oder nicht. Wenn Sie diese Schätzungen nicht bedingen möchten, müssen Sie (1) eine multivariate Normalität der Schätzungen der Varianz-Kovarianz-Parameter (ugh) annehmen oder (2) eine Art parametrisches Bootstrapping durchführen (Double-ugh). .
  • Viele der Standard-Einflussmaße sind für (G) LMMs schwieriger, wenn sie das Invertieren großer Matrizen beinhalten - das ist nicht immer praktisch. Das influence.MEPaket erledigt einen Großteil seiner Arbeit mit einer Semi-Brute-Force-Methode:

    Die Funktion influen () modifiziert iterativ das Modell mit gemischten Effekten, um den Effekt zu neutralisieren, den ein gruppierter Datensatz auf die Parameter hat, und der die festen Parameter dieser iterativ modifizierten Modelle zurückgibt.

Beachten Sie auch den Unterschied zwischen einflussreichen Beobachtungen und einflussreichen Gruppen , von denen jede von Interesse sein könnte.

  • Das lme4Paket enthält eine Hutmatrix (oder deren Diagonale) über ?hatvalues.merMod, sodass Sie diese verwenden können, um einige Standard-Einflussmaße zu berechnen.
  • Was marginale QQ-Diagramme für die BLUPs / bedingten Modi angeht: Wenn die BLUPs / bedingten Modi multivariate Normal sind, sind auch die univariaten Verteilungen gleich. Das Kontrapositive gilt (wenn die univariaten Verteilungen schlecht sind, dann ist die multivariate Verteilung schlecht), aber nicht unbedingt das Gegenteil (wenn die univariaten Verteilungen gut aussehen, könnte die multivariate Verteilung immer noch schlecht sein), aber IMO müssten Sie hübsch arbeiten Es ist schwer, ein solches Beispiel zu konstruieren.
  • Es gibt formale Tests zur Fehlspezifikation zufälliger Effekte, z. B. Abad et al. Biostatistik 2010 (siehe vollständige Angabe unten). Ich weiß nicht ohne weiteres, wo es implementiert wurde.
  • Schließlich scheint es, dass vieles, was Sie wollen, bereits in dem von Ihnen verlinkten Konferenzpapier besprochen wurde (siehe unten). Warum nicht einfach die von ihnen vorgeschlagenen Diagramme zeichnen und einen Cutoff (z. B. ) auswählen , um Ausreißer daraus zu identifizieren?±1.96σ

Abad, Ariel Alonso, Saskia Litière und Geert Molenberghs. "Testen auf Fehlspezifikation in verallgemeinerten linearen gemischten Modellen." Biostatistik 11, nr. 4 (1. Oktober 2010): 771–86. doi: 10.1093 / biostatistics / kxq019.

Julio M. Singer, Juvencio S. Nobre und Francisco MM Rocha. "Diagnose und Behandlung für lineare gemischte Modelle", 5486. Hong Kong, 2013. http://2013.isiproceedings.org/Files/CPS203-P28-S.pdf .

Ben Bolker
quelle
Vielen Dank für Ihre Antworten! Ich weiß jetzt, dass meine Frage viel zu weit gefasst war. Ich weiß es wirklich zu schätzen, dass Sie bereit waren, einzuspringen. Am Ende haben Sie fast alles angesprochen.
Clarpaul