Ich bin mit dem Konzept der kategorialen Variablen und der jeweiligen Dummy-Variablencodierung vertraut, die es uns ermöglicht, eine Ebene als Basislinie anzupassen, um Kollinearität zu vermeiden. Ich bin auch mit der Interpretation von Parameterschätzungen aus solchen Modellen vertraut: Die vorhergesagte Änderung des Ergebnisses für eine bestimmte angepasste Ebene des kategorialen Prädiktors relativ zur Basiskategorie.
Ich bin mir nicht sicher, wie ich eine Reihe unabhängiger Variablen interpretieren soll , deren Proportionen eins ergeben . Wir haben wieder Kollinearität, wenn wir alle Proportionen in das Modell einpassen, also müssten wir vermutlich eine Kategorie als Basislinie weglassen. Ich gehe auch davon aus, dass ich den Typ III SS für den Gesamttest der Signifikanz dieser Variablen betrachten würde. Wie interpretieren wir jedoch die Parameterschätzungen für diese Ebenen, die in das Modell passen, im Vergleich zu denen, die als Basis betrachtet werden?
Ein Beispiel : Auf der Ebene der Postleitzahl ist die unabhängige Variable der Anteil an metamorphem, magmatischem und sedimentärem Gestein. Wie Sie vielleicht wissen, sind dies die drei Hauptgesteinsarten, und alle Gesteine werden als eine davon klassifiziert. Als solches summieren sich die Proportionen über alle drei zu 1. Das Ergebnis ist der durchschnittliche Radongehalt in einer jeweiligen Postleitzahl.
Wenn ich beispielsweise die metamorphen und magmatischen Proportionen als Prädiktoren in das Modell einpassen würde und Sediment als Basislinie belassen würde, würde ein SS F- Test vom Typ III der beiden angepassten Ebenen insgesamt anzeigen, ob der Gesteinstyp insgesamt wichtig ist Prädiktor des Ergebnisses (durchschnittlicher Radonspiegel). Dann könnte ich die einzelnen p- Werte (basierend auf der t- Verteilung) untersuchen, um festzustellen, ob sich einer oder beide Gesteinsarten signifikant von der Grundlinie unterscheiden.
Wenn es jedoch um die Parameterschätzungen geht, möchte mein Gehirn sie immer wieder nur als vorhergesagte Änderung des Ergebnisses zwischen Gruppen (Gesteinsarten) interpretieren, und ich verstehe nicht, wie ich die Tatsache berücksichtigen soll, dass sie als Proportionen passen .
Hat jemand eine Quelle, die die Interpretation eines solchen Modells liefert, oder könnten Sie hier ein kurzes Beispiel geben, wenn nicht?
Antworten:
Als Follow-up und was ich denke, ist die richtige Antwort (scheint mir vernünftig): Ich habe diese Frage auf dem ASA Connect-Listenserver veröffentlicht und die folgende Antwort von Thomas Sexton bei Stony Brook erhalten:
"Ihr geschätztes lineares Regressionsmodell sieht folgendermaßen aus:
ln (Radon) = (ein linearer Ausdruck in anderen Variablen) + 0,43 M + 0,92 I.
Dabei stellen M und I die Prozentsätze der metamorphen bzw. magmatischen Gesteine in der Postleitzahl dar. Sie sind eingeschränkt durch:
M + I + S = 100
Dabei steht S für den prozentualen Anteil des Sedimentgesteins in der Postleitzahl.
Die Interpretation von 0,43 ist, dass eine Zunahme von M um einen Prozentpunkt mit einer Zunahme von 0,43 in ln (Radon) verbunden ist, wobei alle anderen Variablen im Modell festgehalten werden . Somit kann sich der Wert von I nicht ändern, und die einzige Möglichkeit, M um einen Prozentpunkt zu erhöhen, während die Bedingung erfüllt ist, besteht darin, S, die ausgelassene Kategorie, um einen Prozentpunkt zu verringern.
Natürlich kann diese Änderung nicht in Postleitzahlen auftreten, in denen S = 0 ist, aber eine Abnahme von M und eine entsprechende Zunahme von S wäre in solchen Postleitzahlen möglich. "
Hier ist der Link zum Thread ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-42ff
Ich poste dies als akzeptierte richtige Antwort, bin aber immer noch offen für weitere Diskussionen, wenn jemand etwas hinzuzufügen hat.
quelle