Können diese Daten zu einem Anteil für ein Binomial-GLM zusammengefasst werden?

11

Wir haben 60 Personen gebeten, so viele Restaurant-Franchise-Unternehmen wie möglich in Atlanta aufzulisten. Die Gesamtliste umfasste über 70 Restaurants, aber wir haben diejenigen eliminiert, die von weniger als 10% der Bevölkerung erwähnt wurden, und haben 45 übrig gelassen. Für diese 45 haben wir den Anteil der Informanten berechnet, die das Franchise aufgelistet haben, und wir sind daran interessiert Modellierung dieses Anteils als Funktion des (logarithmisch transformierten) Werbebudgets der Franchise-Unternehmen und der Jahre seit ihrer Gründung als Franchise-Unternehmen.

Also habe ich diesen Code geschrieben:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Wie vorhergesagt, zeigen beide Variablen starke, signifikante Effekte.

Aber obwohl ich weiß, dass proportionale Daten niemals mit OLS-Regression modelliert werden sollten, habe ich anschließend diesen Code geschrieben:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

In diesem Fall ist "Budget" immer noch ein signifikanter Prädiktor, aber "Jahre" sind relativ schwach und nicht signifikant.

Ich mache mir Sorgen, dass das Vertrauen in die Schätzungen durch die Aggregation künstlich aufgeblasen wird. Vektorisiert das Binomial glm die Daten nicht im Wesentlichen so, dass das Modell auf 45 * 55 = 2.475 Zeilen basiert? Ist das angemessen, da es wirklich nur 45 Restaurants und 55 Informanten gibt? Würde dies eine Modellierung mit gemischten Effekten erfordern?

Jeremy _
quelle
4
Tipp: sehen, was passiert mitfamily=quasibinomial
Ben Bolker
1
Interessant. Die geschätzten Koeffizienten sind gleich, aber Standardfehler sind konservativer (und Jahre sind im Quasibinom-Modell nicht signifikant). Ich suche in den Hilfedateien nach Quasibinom, aber können Sie erklären, was los ist? Mein Eindruck war, dass Quasibinom hauptsächlich zur Überdispersion verwendet wird. . .
Jeremy _
3
Genau. Es gibt eine Vielzahl von Unterschieden zwischen lmund glm(...,family=binomial), aber einer der wichtigsten ist, dass ein binomialer GLM starke Annahmen über die Varianz macht. Wenn die Daten nicht übermäßig verteilt sind, macht das Aggregieren / Disaggregieren keinen Unterschied.
Ben Bolker
1
Die R-Ausgabe zeigt, dass der Dispersionsparameter mit 8,7 angenommen wird. Ich versuche herauszufinden, was dies über Überdispersion aussagt. In der Zwischenzeit, Ben, sehe ich, dass Sie mit gemischten Modellen ziemlich viel Hintergrundwissen haben. Bin ich sicher, ein Binomial-GLM ohne gemischte Effekte für Informanten oder Franchise-Unternehmen zu verwenden (in diesem Fall müsste ich vermutlich alle Daten vektorisieren, während ich eine Spalte für "Informanten-ID" hinzufüge)?
Jeremy _

Antworten:

1

Y.=cX.1k1X.2k2...X.nknln(Y.)=ln(c)+k1ln(X.1)+k2ln(X.2)...+knln(X.n)R.2

Wenn nun die unveränderte Regressionslinie (idealerweise eine bivariate Regression, z. B. eine Deming-Regression) nicht plausibel durch {0,0} verläuft, wird sie etwas komplizierter, und man minimiert eine versetzte proportionale Verlustfunktion, anstatt die geringste zu verwenden Quadrate.

Carl
quelle