Wie berechnet man die durchschnittliche Dauer der Vegetarismus-Mitgliedschaft, wenn nur Umfragedaten zu aktuellen Vegetariern vorliegen?

16

Eine zufällige Bevölkerungsstichprobe wurde erhoben. Sie wurden gefragt, ob sie vegetarisch essen. Wenn sie mit Ja geantwortet haben, wurden sie auch gebeten, anzugeben, wie lange sie ohne Unterbrechung vegetarisch ernährt haben. Ich möchte diese Daten verwenden, um die durchschnittliche Dauer der Einhaltung des Vegetarismus zu berechnen. Mit anderen Worten, wenn jemand Vegetarier wird, möchte ich wissen, dass er im Durchschnitt lange vegetarisch bleibt. Nehmen wir an, dass:

  • Alle Befragten gaben korrekte und genaue Antworten
  • Die Welt ist stabil: Die Popularität des Vegetarismus ändert sich nicht, auch die durchschnittliche Dauer der Einhaltung ändert sich nicht.

Meine bisherigen Überlegungen

Ich fand es hilfreich, ein Spielzeugmodell der Welt zu analysieren, bei dem zu Beginn eines jeden Jahres zwei Menschen Vegetarier werden. Jedes Mal bleibt einer von ihnen 1 Jahr lang vegetarisch und der andere 3 Jahre lang. Offensichtlich beträgt die durchschnittliche Dauer des Beitritts in dieser Welt (1 + 3) / 2 = 2 Jahre. Hier ist ein Diagramm, das das Beispiel veranschaulicht. Jedes Rechteck repräsentiert eine Periode des Vegetarismus:

eine Illustration

Nehmen wir an, wir machen eine Umfrage in der Mitte des vierten Jahres (rote Linie). Wir erhalten folgende Daten:

ein Tisch

Wir würden die gleichen Daten erhalten, wenn wir an der Umfrage zu einem beliebigen Zeitpunkt ab dem dritten Jahr teilnehmen würden.

(2 × 0,5 + 1,5 + 2,5) / 4 = 1,25

Wir unterschätzen, weil wir davon ausgehen, dass alle gleich nach der Umfrage aufgehört haben, Vegetarier zu sein, was offensichtlich falsch ist. Um eine Schätzung zu erhalten, die näher an der tatsächlichen Durchschnittszeit liegt, in der diese Teilnehmer vegetarisch bleiben würden, können wir davon ausgehen, dass sie im Durchschnitt eine Zeit etwa in der Mitte ihrer Vegetarismusperiode angegeben und die angegebene Dauer mit 2 multipliziert haben Von der Bevölkerung (wie die, die ich analysiere) halte ich dies für eine realistische Annahme. Zumindest würde es einen korrekten Erwartungswert geben. Wenn wir jedoch nur das Doppelte tun, erhalten wir einen Durchschnitt von 2,5, was eine Überschätzung darstellt. Dies liegt daran, dass je länger eine Person vegetarisch bleibt, desto wahrscheinlicher ist es, dass sie in der Stichprobe der derzeitigen Vegetarier ist.

Ich dachte dann, dass die Wahrscheinlichkeit, dass jemand in der Stichprobe der gegenwärtigen Vegetarier ist, proportional zu ihrer Länge des Vegetarismus ist. Um diese Tendenz zu berücksichtigen, habe ich versucht, die Anzahl der derzeitigen Vegetarier durch ihre vorhergesagte Dauer der Einhaltung zu dividieren:

noch ein Tisch

Dies ergibt jedoch auch einen falschen Durchschnitt:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2,533333 = 1,579 Jahre

Es würde die richtige Schätzung geben, wenn die Anzahl der Vegetarier durch ihre korrekte Länge der Einhaltung geteilt würde:

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 Jahre

Aber es funktioniert nicht, wenn ich vorhergesagte Längen der Einhaltung verwende und sie sind alles, was ich in der Realität habe. Ich weiß nicht, was ich sonst noch versuchen soll. Ich habe etwas über die Überlebensanalyse gelesen, bin mir aber nicht sicher, wie ich sie in diesem Fall anwenden soll. Idealerweise möchte ich auch ein 90% -Konfidenzintervall berechnen können. Alle Tipps wäre sehr dankbar.

EDIT: Es ist möglich, dass die Frage oben keine Antwort hat. Es gab aber auch eine andere Studie , in der eine zufällige Auswahl von Personen befragt wurde, ob sie Vegetarier sind / waren und wie oft sie in der Vergangenheit Vegetarier waren. Ich kenne auch das Alter von jedem in beiden Studien und einigen anderen Dingen. Vielleicht können diese Informationen in Verbindung mit der Befragung aktueller Vegetarier verwendet werden, um den Mittelwert irgendwie zu ermitteln. In Wirklichkeit ist die Studie, über die ich gesprochen habe, nur ein Teil des Puzzles, aber sie ist sehr wichtig, und ich möchte mehr daraus machen.

Saulius Šimčikas
quelle
1
Das ist keine Option atm. Diese Daten liefern definitiv Hinweise auf die Dauer der Einhaltung, ich weiß nur nicht, wie ich sie verwenden soll.
Saulius Šimčikas
1
Mindestens eines Ihrer Bilder scheint verschwunden zu sein (Fehler 403, wenn ich die URL verwende).
barrycarter
2
@kjetilbhalvorsen Für das Problem in ist es egal, ob Vegetarier weiterhin Vegetarier fürs Leben sind. Irgendwann werden sie keine Vegetarier mehr sein, entweder indem sie Fleisch essen oder sterben.
Pere
4
@kjetil Dein Kommentar zu "echten Vegetariern" klingt ein bisschen wie ein No True Scotsman . Die gewöhnliche Definition eines Vegetariers sagt nichts darüber aus, was in der Zukunft passieren könnte oder warum jemand Vegetarier ist, sondern nur über sein Verhalten zum Zeitpunkt der Prüfung des Attributs. Wenn jemand jetzt Vegetarier ist, ist er jetzt Vegetarier, aus welchem Grund auch immer er einer ist. Ich glaube nicht, dass unsere persönlichen Gefühle in Bezug auf die Idee, Fleisch zu essen, oder die Gründe, warum wir das Gefühl haben, dies zu tun, hier zum Thema gehören. Sie gehören woanders hin.
Glen_b
2
Da Personen, die länger Vegetarier sind, mit größerer Wahrscheinlichkeit ausgewählt werden, um in Ihrer Stichprobe zu erscheinen, bedeutet dies, dass die Wahrscheinlichkeitsdichtefunktion Ihrer Stichprobendaten proportional zu eins minus der kumulativen Verteilungsfunktion der Adhärenzlängen ist. Um ein Beispiel aus Ihrem Beispiel zu machen, ist die Längenverteilung [0, 0.5, 0, 0.5] (50% dauern für 1 Jahr, 50% für 3 Jahre), was einen CDF von [0, 0.5, 0.5, 1 ergibt ], wobei eins minus [1, 0,5, 0,5, 0] ist, was proportional zu den [2, 1, 1, 0] -Zahlen Ihrer Stichprobe ist.
PhiNotPi

Antworten:

10

Sei die pdf der Adhärenzlänge des Vegetarismus in der Bevölkerung. Unser Ziel ist es, zu schätzen .fX(x)XEX=0xfX(x)dx

Unter der Annahme, dass die Wahrscheinlichkeit, an der Umfrage teilzunehmen (das Ereignis ), proportional zu , ist das PDF mit der Adhärenzlänge unter den in der Umfrage enthaltenen Zum Zeitpunkt der Aufnahme in die Umfrage ist nur eine Zeit vergangen. Abhängig von (und ) ist die gemeldete Zeit als Vegetarier einheitlich mit pdf Daher wird unter Verwendung des Gesetzes der Gesamtwahrscheinlichkeit die Gesamtverteilung der als Vegetarier verstrichenen Zeit unter den in der Umfrage eingeschlossenen SXX

fX|S(x)=xfX(x)xfX(x)dx=xfX(x)EX.
ZXS
fZ|X=x(z)=1x,0<z<x.
Z
fZ(z)=zfZ|X=x(z)fX|S(x)dx=z1xxfX(x)EXdx=1FX(z)EX,
wobei das cdf von . Da eine positive Variable ist, ist und somit .FX(z)XXFX(0)=P(X0)=0fZ(0)=1/EX

Dies legt nahe, schätzen, indem vielleicht zuerst nicht parametrisch aus den beobachteten Daten . Eine Option ist die Schätzung der Kerndichte unter Verwendung von Silvermans Reflexionsmethode um da die Domäne von eine Untergrenze bei . Diese auf simulierte Daten angewendete Methode ist in der folgenden Abbildung als rote Kurve dargestellt. Nachdem eine Schätzung von bei , wird eine Schätzung von gegeben durch . EXfZ(z)z1,z2,,znz=0fZ(z)z=0f^Z(0)fZ(z)z=0EXEX^=1/f^Z(0)

Bildbeschreibung hier eingeben

Diese nichtparametrische Methode ist jedoch nicht ideal, da sie die Tatsache nicht ausnutzt, dass eine Funktion ist. Auch wenn , kann stark unterschätzt und überschätzt werden. In solchen Situationen eine Schätzung von zu finden, ohne weitere Annahmen zu treffen, erscheint schwierig, da in den beobachteten Daten aufgrund der verzerrten Stichproben kaum kurze Haftzeiten vorhanden sind.f X ( 0 ) = F ' X ( 0 ) > 0 f Z ( 0 ) E X E XfZ(z)fX(0)=FX(0)>0fZ(0)EXEX

Alternativ könnte man einige Verteilungsannahmen über und ein parametrisches Modell indem man die Wahrscheinlichkeit numerisch (blaue Kurve in der obigen Abbildung).L ( & thgr; ) = n i = 1 1 - F X ( z i ; & thgr ; )fX(x)

L(θ)=i=1n1FX(zi;θ)EX(θ)

R-Code, der Daten simuliert und beide Methoden implementiert:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)
Jarle Tufto
quelle
1
Hey, vielen Dank für die Antwort. Ich habe mir noch nicht die Zeit genommen, alles zu verstehen. Ich wollte nur hinzufügen, dass ich die allgemeine Verteilung aus dieser anderen Studie kenne. (Das einzige Problem bei der anderen Studie war, dass die Menschen sich für eine Option entschieden haben, wie lange sie Vegetarier waren. Eine Option war "Mehr als 10 Jahre". Der Durchschnitt hängt fast ausschließlich davon ab, wie lange sie älter als 10 Jahre waren Vegetarier bleiben)
Saulius Šimčikas
Ok, ich hoffe es gibt keine größeren Fehler in meiner Argumentation. Ich sehe, dass @PhiNotPi in seinem Kommentar zum OP zum selben PDF gelangt.
Jarle Tufto
@Saulius Wenn Sie Zugriff auf den zweiten rechtszensierten Datensatz haben und davon ausgegangen werden kann, dass die zugrunde liegenden Verteilungen identisch sind, besteht die ideale Lösung darin, die Wahrscheinlichkeit für diesen Datensatz zu kombinieren (was einfach zu notieren ist, wenn es nur so ist) einige richtig zensierte Stichproben) und maximieren dann die Gelenkwahrscheinlichkeit.
Jarle Tufto
das hier ist nicht richtig zensiert: imgur.com/U8ofZ3A Mir ist jetzt klar, dass ich das am Anfang erwähnen musste, aber ich dachte, dass mein Problem eine einfachere Lösung hat ...
Saulius Šimčikas
@Saulius Diese Daten werden intervallzensiert. Auch hier ist es einfach, die Wahrscheinlichkeit zu berechnen.
Jarle Tufto
0

(Ich habe darüber nachgedacht, wie es scheint, @JarleTufto hat bereits einen netten mathematischen Ansatz angegeben. Allerdings bin ich nicht schlau genug, um seine Antwort zu verstehen, und jetzt bin ich gespannt, ob es genau der gleiche Ansatz ist oder ob Der Ansatz, den ich weiter unten beschreibe, hat immer seine Verwendung.)

Was ich tun würde, ist, eine durchschnittliche Länge zu erraten und einige Verteilungen zu erraten, und dann für jede eine Simulation meiner Population zu erstellen und diese regelmäßig zu testen.

Sie gehen davon aus, dass sich die Gesamtbevölkerung der Vegetarier nicht ändert. Jedes Mal, wenn in meinem Modell jemand anhält, wird ein brandneuer Vegetarier erstellt. Wir müssen das Modell einige simulierte Jahre lang laufen lassen, um sicherzustellen, dass es sich beruhigt hat, bevor wir mit der Stichprobe beginnen können. Danach können Sie meines Erachtens jeden simulierten Monat (*) Proben entnehmen, bis Sie genug Zeit haben, um Ihr 90% -Konfidenzintervall zu bestimmen.

*: oder welche Auflösung auch immer mit Ihren Daten funktioniert. Wenn die Menschen ihre Antwort auf das nächste Jahr gaben, ist eine Stichprobe alle 6 Monate ausreichend.

Aus all Ihren Vermutungen wählen Sie den Mittelwert und die Verteilung aus, die (gemittelt über alle von Ihnen entnommenen Proben) das Ergebnis liefern, das dem Ihrer realen Umfrage am nächsten kommt.

Ich würde meine Vermutungen ein paar Mal wiederholen, um die beste Übereinstimmung herauszufinden.

Die beste Verteilung ist möglicherweise nicht einpeakig. Die Ex-Vegetarier, von denen ich persönlich denke, dass sie aufgehört haben, weil sich ihr Lebensstil stark verändert hat (normalerweise heiraten / mit einem Nicht-Vegetarier oder einem Umzugsland zusammenleben oder schwer krank werden und ein Arzt vorschlägt, dass es sich um eine Diät handelt); Auf der anderen Seite liegt die Kraft der Gewohnheit: Je länger Sie Vegetarier sind, desto wahrscheinlicher ist es, dass Sie einer bleiben. Wenn Ihre Daten nach dem Alter und dem Beziehungsstatus gefragt hätten, könnten wir dies auch in der obigen Simulation tun.

Darren Cook
quelle