Ratschläge zur Erklärung von Heterogenität / Heteroskedastizität

Ich suche Hilfe, Ratschläge oder Tipps, wie ich Biologen in meiner Abteilung Heterogenität / Heteroskedastizität erklären kann. Insbesondere möchte ich erklären, warum es wichtig ist, danach zu suchen und damit umzugehen, wenn es existiert. Ich habe nach Meinungen zu den folgenden Fragen gesucht.

Beeinflusst Heterogenität die Zuverlässigkeit von Zufallseffektschätzungen? Ich bin mir ziemlich sicher, aber ich konnte kein Papier finden.
Wie ernst ist die Heterogenität? Ich habe widersprüchliche Ansichten dazu gefunden, während einige sagen, dass Modellstandardfehler usw. unzuverlässig sind, habe ich auch gelesen, dass es nur dann ein Problem ist, wenn die Heterogenität schwerwiegend ist. Wie schwer ist schwer?
Hinweise zur Modellierung der Heterogenität. Derzeit konzentriere ich mich hauptsächlich auf das nlme-Paket in R und die Verwendung von Varianzkovariaten. Dies ist ziemlich einfach und die meisten Leute hier verwenden R, daher ist das Bereitstellen von Skripten nützlich. Ich verwende auch das MCMCglmm-Paket, aber andere Vorschläge sind willkommen, insbesondere für nicht normale Daten.
Alle anderen Vorschläge sind willkommen.

regression mixed-model references residuals heteroscedasticity user3136
quelle

@ user3136, bitte klären Sie, ob Ihr Hauptanliegen die Heterogenität (verschiedene Arten mit eindeutigen Attributen, wahrscheinlich aus der bekannten Verbreitung) oder die Heteroskedastizität (die Eigenschaft eines zufälligen Prozesses, zeitlich variierende Varianz zu haben) ist, da diese beiden Konzepte deutlich unterschiedlich sind. Beide Probleme sind jedoch interessant, das erstere führt zu Modellen mit gemischten Effekten oder Modellen mit zufälligen Koeffizienten, das letztere hat viele Heilmittel zu behandeln (ist jedoch weniger wichtig, da einfach nicht effizient ist, aber Schätzungen unvoreingenommen sind).

O L S

$OLS$

Dmitrij Celov

Hallo, tut mir leid. Mein Anliegen ist wirklich die Heteroskedastizität. Ein Problem, das ich hatte, ist, dass diese beiden Begriffe (Heteroskedastizität und Heterogenität) fast austauschbar verwendet werden. In diesem Zusammenhang sollen sich beide auf die Situation beziehen, in der der Fehler in den Residuen nicht konstant ist

user3136

Nicht wirklich, es gibt viele Quellen für Heterogenität: Unterschiede in Parametern (z. B. zufällige Parameter), Variablen (übliche Regressionssache), Residuen (idiosynkratischer Teil, der zu verschiedenen Verteilungen gehören kann, oder Verteilungsparameter können unterschiedlich sein, Heteroskedastizität gehört also hierher es ist ein separater Fall von Heterogenität), Unterschiede in der funktionellen Form. Ich würde also nur den spezielleren Begriff - Heteroskedastizität - belassen.

Dmitrij Celov

Vielen Dank, Dimitrij. Eine Frage, die ich stellen wollte, betraf die korrekte Terminologie in diesem Bereich.

user3136

Antworten:

Allometrie wäre ein guter Ausgangspunkt, der Biologen bekannt sein wird. Logaritmische Transformationen werden häufig in der Allometrie verwendet, weil die Daten eine Potenzgesetzform haben, aber auch, weil der Rauschprozess heteroskedastisch ist (da die Variabilität proportional zur Größe ist). Ein Beispiel, bei dem dies zu einem schwerwiegenden Problem geführt hat, finden Sie unter "Allometrische Gleichungen zur Vorhersage der Körpermasse von Dinosauriern" , wo die Schlussfolgerung, dass Dinosaurier zuvor nur halb so groß waren, falsch war, weil eine ungültige Annahme der Homoskedastizität gemacht wurde (siehe die Korrespondenz für Einzelheiten).

Dikran Beuteltier
quelle

Eine Möglichkeit ist die Verwendung einer Simulation. Sie also ein Modell ein, in dem Sie die angenommene Heterogenität spezifisch als . Generieren Sie dann Ihre Daten aus diesem Modell, wobei Sie zufällige Abschnitte als einfaches Beispiel verwenden. $var(\alpha_i)=\overline{X}_i^2\sigma^2_u$

α_{i} = {\bar{X}}_{i} u_{i} u_{i} \sim N (0, σ_{u}^{2})

$\alpha_i=\overline{X}_i u_i\;\;\;\;\;\; u_i\sim N(0,\sigma^2_u)$

Y_{i} j = α_{i} + β X_{i j} + e_{i j} e_{i j} \sim N (0, σ_{e}^{2})

$Y_ij=\alpha_{i}+\beta X_{ij} + e_{ij}\;\;\;\;\;\; e_{ij}\sim N(0,\sigma^2_e)$

(hoffe, diese Notation macht Sinn). Ich glaube, dass das Herumspielen mit einem solchen Setup Ihnen bei der Beantwortung von Frage 2) helfen wird. Sie würden dieses Modell also mithilfe eines zufälligen Abschnitts anpassen, obwohl es sich tatsächlich um eine zufällige Steigung handeln sollte (was Ihnen eine teilweise Antwort auf Frage 3 gibt - zufällige Abschnitte können bis zu einem gewissen Grad für "Fanning" verantwortlich sein - dies ist "Fanning der Stufe 2". ). Die Idee des oben Gesagten ist, so viel wie möglich zu versuchen, Ihre Modellierungsmethode zu brechen - versuchen Sie extreme Bedingungen, die mit dem übereinstimmen, was Sie über die Daten wissen, und sehen Sie, was passiert. Wenn Sie Schwierigkeiten haben, diese Bedingungen zu finden, machen Sie sich keine Sorgen.

Ich habe die Heteroskedastizität für OLS kurz überprüft, und es scheint die geschätzten Betas nicht zu sehr zu beeinflussen. Für mich scheint es nur so, als würde Heteroskedastizität an einigen Stellen eine Unterschätzung des wahrscheinlichen Fehlers und an anderen Stellen eine Überschätzung des wahrscheinlichen Fehlers (in prädiktiven Begriffen) geben. Siehe unten:

Warten auf die Darstellung der Daten hier, Benutzer derzeit mit Computern frustriert

Und eine Sache, die ich immer amüsant finde, ist diese "Nicht-Normalität der Daten", über die sich die Leute Sorgen machen. Die Daten müssen nicht normal verteilt werden, der Fehlerbegriff jedoch. Wenn dies nicht wahr wäre, würden GLMs nicht funktionieren - GLMs verwenden eine normale Annäherung an die Wahrscheinlichkeitsfunktion, um die Parameter zu schätzen, ebenso wie GLMMs.

Ich würde also sagen, wenn das Schätzen fester Effektparameter das Hauptziel ist, dann gibt es nicht viel zu befürchten, aber Sie können bessere Ergebnisse für die Vorhersage erzielen, wenn Sie die Heteroskedastizität berücksichtigen.

Wahrscheinlichkeitslogik
quelle

HI, danke für den Rat. Ich arbeite derzeit an einigen Simulationen, also hoffe ich, dass sie funktionieren. Soweit ich weiß, wirkt sich Heteroskedastizität nicht auf die Schätzung von Regressionskoeffizienten aus, kann jedoch die Standardfehler dieser Schätzungen über- oder unterschätzen.

user3136

Bei Heteroskedastizität wird tatsächlich beides (Über- und Unterschätzung) ausgeführt - auf ähnliche Weise wie bei der "Mittelung" gewöhnlicher Daten die tatsächlichen Werte über- und unterschätzt werden. Bei einer Steigung haben Sie an verschiedenen Punkten der Linie unterschiedliche Genauigkeitsgrade.

Wahrscheinlichkeitslogik

In meinem speziellen Bereich besteht auch eine große Abhängigkeit von Signifikanztests und damit auch von p-Werten. Daher denke ich, dass die Tatsache, dass die SE über- und unterschätzt werden kann, einige Probleme verursachen kann, wenn Sie alle Schlussfolgerungen auf Ihre p-Werte stützen.

user3136

Ich würde sagen, Sie haben größere Probleme als Standardfehler, wenn alle Inferenzen auf p-Werten und Signifikanztests basieren. Solche Dinge fördern "sinnlose Statistiken".

Wahrscheinlichkeitslogik

Ich könnte nicht mehr zustimmen, ich denke, die meisten Leute, mit denen ich spreche, wissen, dass ein solcher Ansatz verdächtig ist, aber es ist schwierig, sie davon abzuhalten, sich ausschließlich auf p-Werte zu konzentrieren, oft auf Kosten von allem anderen.

user3136

Die beste KOSTENLOSE Online-Ressource, die ich kenne, um etwas über Heteroskedastizität zu lernen, sind die ECON 421-Vorlesungen von Prof. Thoma aus dem Jahr 2011. Speziell die Vorlesungen 1 - 7. Seine Vorlesungen sind sehr gut organisiert und können unabhängig von Ihrer Disziplin leicht verfolgt werden.

Hier ist die erste Vorlesung. Den Rest der Vorlesungen aus dem Wintersemester 2011 finden Sie auch hier. http://www.youtube.com/watch?v=WK03XgoVsPM

Auf der entsprechenden Website zum Econ 421-Kurs von Prof. Thoma finden Sie auch Probleme mit Hausaufgaben und deren Lösungen. Bei Lösungen, für die Software erforderlich ist, wird die Lösung Schritt für Schritt anhand einer Kombination aus Text, Formeln und Screenshots von Eviews detailliert beschrieben.

Obwohl die Schritte zur Lösung der Hausaufgabenprobleme mithilfe von Screenshots aus E-Views detailliert beschrieben werden, lassen sich die Lösungen problemlos in andere Statistikpakete wie STATA- oder R-Statistiken übertragen.

Für die Hausaufgaben aus dem Semester 2011, dem letzten Video-Semester von Prof. Thoma, sind keine Lösungen aufgeführt. Für sein Wintersemester 2012 stehen jedoch Hausaufgaben zur Verfügung .

Hier ist ein Link zum Abschnitt Hausaufgabenlösungen der Klasse Prof. Thomas Winter 2012 421. Speziell hier ist die Lösung zu Hausaufgabe 3, bei der Heteroskedastizität in die Hausaufgaben-Sets eingeführt wird. http://economistsview.typepad.com/economics421/2012/02/solution-to-homework-3.html

James Bradshaw IV
quelle

Vielen Dank für diese Hinweise, James. Hier bittet der Fragesteller jedoch um Erklärungen und Ratschläge. Könnten Sie in diesen Referenzen spezifische "Hilfe, Ratschläge oder Tipps" umschreiben, damit Ihre Antwort relevant sein kann?

whuber