Ich suche Hilfe, Ratschläge oder Tipps, wie ich Biologen in meiner Abteilung Heterogenität / Heteroskedastizität erklären kann. Insbesondere möchte ich erklären, warum es wichtig ist, danach zu suchen und damit umzugehen, wenn es existiert. Ich habe nach Meinungen zu den folgenden Fragen gesucht.
- Beeinflusst Heterogenität die Zuverlässigkeit von Zufallseffektschätzungen? Ich bin mir ziemlich sicher, aber ich konnte kein Papier finden.
- Wie ernst ist die Heterogenität? Ich habe widersprüchliche Ansichten dazu gefunden, während einige sagen, dass Modellstandardfehler usw. unzuverlässig sind, habe ich auch gelesen, dass es nur dann ein Problem ist, wenn die Heterogenität schwerwiegend ist. Wie schwer ist schwer?
- Hinweise zur Modellierung der Heterogenität. Derzeit konzentriere ich mich hauptsächlich auf das nlme-Paket in R und die Verwendung von Varianzkovariaten. Dies ist ziemlich einfach und die meisten Leute hier verwenden R, daher ist das Bereitstellen von Skripten nützlich. Ich verwende auch das MCMCglmm-Paket, aber andere Vorschläge sind willkommen, insbesondere für nicht normale Daten.
- Alle anderen Vorschläge sind willkommen.
Antworten:
Allometrie wäre ein guter Ausgangspunkt, der Biologen bekannt sein wird. Logaritmische Transformationen werden häufig in der Allometrie verwendet, weil die Daten eine Potenzgesetzform haben, aber auch, weil der Rauschprozess heteroskedastisch ist (da die Variabilität proportional zur Größe ist). Ein Beispiel, bei dem dies zu einem schwerwiegenden Problem geführt hat, finden Sie unter "Allometrische Gleichungen zur Vorhersage der Körpermasse von Dinosauriern" , wo die Schlussfolgerung, dass Dinosaurier zuvor nur halb so groß waren, falsch war, weil eine ungültige Annahme der Homoskedastizität gemacht wurde (siehe die Korrespondenz für Einzelheiten).
quelle
Eine Möglichkeit ist die Verwendung einer Simulation. Sie also ein Modell ein, in dem Sie die angenommene Heterogenität spezifisch als . Generieren Sie dann Ihre Daten aus diesem Modell, wobei Sie zufällige Abschnitte als einfaches Beispiel verwenden.var(αi)=X¯¯¯¯2iσ2u
(hoffe, diese Notation macht Sinn). Ich glaube, dass das Herumspielen mit einem solchen Setup Ihnen bei der Beantwortung von Frage 2) helfen wird. Sie würden dieses Modell also mithilfe eines zufälligen Abschnitts anpassen, obwohl es sich tatsächlich um eine zufällige Steigung handeln sollte (was Ihnen eine teilweise Antwort auf Frage 3 gibt - zufällige Abschnitte können bis zu einem gewissen Grad für "Fanning" verantwortlich sein - dies ist "Fanning der Stufe 2". ). Die Idee des oben Gesagten ist, so viel wie möglich zu versuchen, Ihre Modellierungsmethode zu brechen - versuchen Sie extreme Bedingungen, die mit dem übereinstimmen, was Sie über die Daten wissen, und sehen Sie, was passiert. Wenn Sie Schwierigkeiten haben, diese Bedingungen zu finden, machen Sie sich keine Sorgen.
Ich habe die Heteroskedastizität für OLS kurz überprüft, und es scheint die geschätzten Betas nicht zu sehr zu beeinflussen. Für mich scheint es nur so, als würde Heteroskedastizität an einigen Stellen eine Unterschätzung des wahrscheinlichen Fehlers und an anderen Stellen eine Überschätzung des wahrscheinlichen Fehlers (in prädiktiven Begriffen) geben. Siehe unten:
Warten auf die Darstellung der Daten hier, Benutzer derzeit mit Computern frustriert
Und eine Sache, die ich immer amüsant finde, ist diese "Nicht-Normalität der Daten", über die sich die Leute Sorgen machen. Die Daten müssen nicht normal verteilt werden, der Fehlerbegriff jedoch. Wenn dies nicht wahr wäre, würden GLMs nicht funktionieren - GLMs verwenden eine normale Annäherung an die Wahrscheinlichkeitsfunktion, um die Parameter zu schätzen, ebenso wie GLMMs.
Ich würde also sagen, wenn das Schätzen fester Effektparameter das Hauptziel ist, dann gibt es nicht viel zu befürchten, aber Sie können bessere Ergebnisse für die Vorhersage erzielen, wenn Sie die Heteroskedastizität berücksichtigen.
quelle
Die beste KOSTENLOSE Online-Ressource, die ich kenne, um etwas über Heteroskedastizität zu lernen, sind die ECON 421-Vorlesungen von Prof. Thoma aus dem Jahr 2011. Speziell die Vorlesungen 1 - 7. Seine Vorlesungen sind sehr gut organisiert und können unabhängig von Ihrer Disziplin leicht verfolgt werden.
Hier ist die erste Vorlesung. Den Rest der Vorlesungen aus dem Wintersemester 2011 finden Sie auch hier. http://www.youtube.com/watch?v=WK03XgoVsPM
Auf der entsprechenden Website zum Econ 421-Kurs von Prof. Thoma finden Sie auch Probleme mit Hausaufgaben und deren Lösungen. Bei Lösungen, für die Software erforderlich ist, wird die Lösung Schritt für Schritt anhand einer Kombination aus Text, Formeln und Screenshots von Eviews detailliert beschrieben.
Obwohl die Schritte zur Lösung der Hausaufgabenprobleme mithilfe von Screenshots aus E-Views detailliert beschrieben werden, lassen sich die Lösungen problemlos in andere Statistikpakete wie STATA- oder R-Statistiken übertragen.
Für die Hausaufgaben aus dem Semester 2011, dem letzten Video-Semester von Prof. Thoma, sind keine Lösungen aufgeführt. Für sein Wintersemester 2012 stehen jedoch Hausaufgaben zur Verfügung .
Hier ist ein Link zum Abschnitt Hausaufgabenlösungen der Klasse Prof. Thomas Winter 2012 421. Speziell hier ist die Lösung zu Hausaufgabe 3, bei der Heteroskedastizität in die Hausaufgaben-Sets eingeführt wird. http://economistsview.typepad.com/economics421/2012/02/solution-to-homework-3.html
quelle