Ich bin daran interessiert zu lernen, wie man eine geografische Annäherung einer Art Epizentrum basierend auf den Daten des John Snow Cholera-Ausbruchs entwickelt. Welche statistische Modellierung könnte verwendet werden, um ein solches Problem zu lösen, ohne vorher zu wissen, wo sich die Bohrlöcher befinden.
Als allgemeines Problem hätten Sie die Zeit, den Ort bekannter Punkte und den Gehweg des Beobachters zur Verfügung. Die Methode, nach der ich suche, würde diese drei Dinge verwenden, um das Epizentrum des "Ausbruchs" abzuschätzen.
bayesian
spatial
epidemiology
gis
Zylondude
quelle
quelle
Antworten:
Um keine vollständige oder verbindliche Antwort zu geben, sondern nur um Ideen anzuregen, werde ich über eine schnelle Analyse berichten, die ich für eine Laborübung in einem Raumstatistikkurs vor zehn Jahren durchgeführt habe. Ziel war es herauszufinden, welchen Effekt eine genaue Berechnung der wahrscheinlichen Reisewege (zu Fuß) im Vergleich zur Verwendung von euklidischen Entfernungen auf eine relativ einfache Erkundungsmethode hat: eine Schätzung der Kerndichte. Wo würde sich der Peak (oder die Peaks) der Dichte relativ zu der Pumpe befinden, deren Handgriff Schnee entfernt hat?
Unter Verwendung einer ziemlich hochauflösenden Rasterdarstellung (2946 Zeilen mal 3160 Spalten) von Schnees Karte (ordnungsgemäß georeferenziert) habe ich jeden der Hunderte kleiner schwarzer Särge auf der Karte digitalisiert (wobei ich 558 davon bei 309 Adressen gefunden habe) der Straßenrand entspricht seiner Adresse und wird an jedem Ort nach Adresse zu einer Zählung zusammengefasst.
Nach einigen Bildbearbeitungen zur Identifizierung der Straßen und Gassen führte ich eine einfache Gaußsche Diffusion durch, die auf diese Bereiche beschränkt war (unter Verwendung wiederholter Fokusmittel in einem GIS). Das ist der KDE.
Das Ergebnis spricht für sich - es braucht kaum eine Legende, um es zu erklären. (Die Karte zeigt viele andere Pumpen, aber alle liegen außerhalb dieser Ansicht, die sich auf die Bereiche mit der höchsten Dichte konzentriert.)
quelle
In [1, §3.2] schlägt David Freedman eine im Wesentlichen negative Antwort auf Ihre Frage vor. Das heißt, kein (bloßes) statistisches Modell oder Algorithmus könnte das Problem von John Snow lösen. Schnees Problem bestand darin, ein kritisches Argument zu entwickeln, das seine Theorie, dass Cholera eine durch Wasser übertragene Infektionskrankheit ist, gegen die vorherrschende Miasma-Theorie seiner Zeit stützt . (Kapitel 3 in [1] mit dem Titel „Statistical Models and Shoe Leather“ ist auch in der zuvor veröffentlichten Form [2] hier verfügbar .)
In diesen wenigen kurzen Seiten [1, S. 47–53], von denen ein Großteil ein ausführliches Zitat von John Snow selbst ist, argumentiert Freedman, dass "das, was Snow 1853–54 tat, noch interessanter ist als die Fabel [des Broad Street Pump]. " Was das Sammeln statistischer Beweise anbelangt (andere vorbereitende Maßnahmen wie die Identifizierung von Indexfällen usw.), nutzte Snow die natürliche Variation , um ein wirklich bemerkenswertes Quasi-Experiment durchzuführen.
Es stellte sich heraus, dass es zu einem früheren Zeitpunkt in London einen heftigen Wettbewerb zwischen den Wasserversorgungsunternehmen gab, und dies führte zu einer räumlichen Vermischung der Wasserversorgung, die (in Schnees Worten) "von der intimsten Art" war.
Ein weiteres kritisch wichtiges Stück „natürlicher Variation“, das John Snow in diesem Quasi-Experiment ausnutzte, war die Tatsache, dass eine Wasserversorgung an der Themse stromabwärts von Abwassereinleitungen betrieben wurde , während die andere einige Jahre zuvor ihre Versorgung stromaufwärts verlagerte . Ich lasse Sie raten, welches aus John Snow's Datentabelle stammt!
Wie Freedman verwelkt bemerkt,
Ein weiterer Punkt der natürlichen Variation von Schnee ausgebeutet ereignete sich in der Zeit Dimension: die oben genannte Verlagerung Wasseraufnahme erfolgte zwischen zwei Epidemien, so dass Schnee die gleiche Firma , Wasser mit und ohne Zusatz von Abwasser zu vergleichen. (Dank an Philip B. Stark, einen Autor von [1], für diese Info über Twitter . Siehe diesen Online-Vortrag von ihm.)
Diese Angelegenheit liefert auch eine lehrreiche Studie über den Kontrast zwischen Deduktivismus und Induktivismus , wie in dieser Antwort diskutiert .
Freedman D, Collier D, Sekhon JS, Stark PB. Statistische Modelle und kausale Folgerungen: Ein Dialog mit den Sozialwissenschaften. Cambridge; New York: Cambridge University Press; 2010.
Freedman DA. Statistische Modelle und Schuhleder. Soziologische Methodik . 1991; 21: 291 & ndash; 313. doi: 10.2307 / 270939. Voller Text
quelle