Welches statistische Modell oder welcher statistische Algorithmus könnte zur Lösung des John Snow Cholera-Problems verwendet werden?

23

Ich bin daran interessiert zu lernen, wie man eine geografische Annäherung einer Art Epizentrum basierend auf den Daten des John Snow Cholera-Ausbruchs entwickelt. Welche statistische Modellierung könnte verwendet werden, um ein solches Problem zu lösen, ohne vorher zu wissen, wo sich die Bohrlöcher befinden.

Als allgemeines Problem hätten Sie die Zeit, den Ort bekannter Punkte und den Gehweg des Beobachters zur Verfügung. Die Methode, nach der ich suche, würde diese drei Dinge verwenden, um das Epizentrum des "Ausbruchs" abzuschätzen.

Zylondude
quelle
2
Kriging-Modelle werden für die geografische Vorhersage verwendet. Das könnte ein Anfang sein. Um Zeitinformationen aufzunehmen, müssen Sie einen Schritt weiter gehen und ein räumlich-zeitliches Modell verwenden (ich habe diese jedoch nicht verwendet).
Great38
4
@Großes Kriging ist hier schwer anzuwenden: Es ist weder zur Schätzung von Extrema gedacht, noch für die relevante Geometrie der Gehzeit entlang von Straßen geeignet, noch ist es für die Steuerung wichtiger Kovariaten wie Bevölkerungsdichte oder geeignet Anzahl der Arbeiter in Gebäuden.
whuber
Dieses R-Paket ist möglicherweise von Interesse für github.com/lindbrook/cholera .
David C. Norris

Antworten:

25

Um keine vollständige oder verbindliche Antwort zu geben, sondern nur um Ideen anzuregen, werde ich über eine schnelle Analyse berichten, die ich für eine Laborübung in einem Raumstatistikkurs vor zehn Jahren durchgeführt habe. Ziel war es herauszufinden, welchen Effekt eine genaue Berechnung der wahrscheinlichen Reisewege (zu Fuß) im Vergleich zur Verwendung von euklidischen Entfernungen auf eine relativ einfache Erkundungsmethode hat: eine Schätzung der Kerndichte. Wo würde sich der Peak (oder die Peaks) der Dichte relativ zu der Pumpe befinden, deren Handgriff Schnee entfernt hat?

Unter Verwendung einer ziemlich hochauflösenden Rasterdarstellung (2946 Zeilen mal 3160 Spalten) von Schnees Karte (ordnungsgemäß georeferenziert) habe ich jeden der Hunderte kleiner schwarzer Särge auf der Karte digitalisiert (wobei ich 558 davon bei 309 Adressen gefunden habe) der Straßenrand entspricht seiner Adresse und wird an jedem Ort nach Adresse zu einer Zählung zusammengefasst.

Punktkarte der Eingabedaten

Nach einigen Bildbearbeitungen zur Identifizierung der Straßen und Gassen führte ich eine einfache Gaußsche Diffusion durch, die auf diese Bereiche beschränkt war (unter Verwendung wiederholter Fokusmittel in einem GIS). Das ist der KDE.

Das Ergebnis spricht für sich - es braucht kaum eine Legende, um es zu erklären. (Die Karte zeigt viele andere Pumpen, aber alle liegen außerhalb dieser Ansicht, die sich auf die Bereiche mit der höchsten Dichte konzentriert.)

Schneekarte zeigt Dichte mit Farbe.

whuber
quelle
WOW. Also zusammenfassen; 1. linearisiere den Fahrweg, 2. führe Glättung in einer Dimension durch, 3. erweitere die Glättung in zwei Dimensionen, 4. mittle die KDE über die Fahrwege?
Cylondude
1
Die Glättung wurde in 2D durchgeführt, jedoch auf den farblich dargestellten Bereich beschränkt. Es gibt auch andere Möglichkeiten, die Ihrer Beschreibung entsprechen. Es ist jedoch nicht erforderlich, über "Pfadfahrten" zu mitteln (was auch immer das sein mag). Diese Karte ist zum Teil deshalb interessant, weil sie Eigenschaften von ein- und zweidimensionalen Geometrien aufweist.
Whuber
Zählen Sie für jeden Punkt A auf den Straßen die Anzahl der Schritte zum jeweils anderen Punkt B unter den Adresspositionen. Fügen Sie diese Anzahl von Schritten in eine Gaußsche Dichte ein und multiplizieren Sie diesen Wert mit der Anzahl der Todesfälle bei B. Addieren Sie alle diese Produkte (dh über alle Adresspunkte B), um die Kerneldichte bei Punkt A zu erhalten. Tun Sie dies für alle Punkte A auf den Straßen. Das ist die Dichte, die wir an jedem Punkt auf der Karte sehen. Ja?
Hatschepsut
2
B
2
@Hat Es ist nicht der Fall, dass der Gaußsche eine integrale Einheit hat, wenn er auf die Straßen und Gehwege beschränkt ist! Es wird dabei abgeschnitten und muss neu normiert werden.
Whuber
19

In [1, §3.2] schlägt David Freedman eine im Wesentlichen negative Antwort auf Ihre Frage vor. Das heißt, kein (bloßes) statistisches Modell oder Algorithmus könnte das Problem von John Snow lösen. Schnees Problem bestand darin, ein kritisches Argument zu entwickeln, das seine Theorie, dass Cholera eine durch Wasser übertragene Infektionskrankheit ist, gegen die vorherrschende Miasma-Theorie seiner Zeit stützt . (Kapitel 3 in [1] mit dem Titel „Statistical Models and Shoe Leather“ ist auch in der zuvor veröffentlichten Form [2] hier verfügbar .)

In diesen wenigen kurzen Seiten [1, S. 47–53], von denen ein Großteil ein ausführliches Zitat von John Snow selbst ist, argumentiert Freedman, dass "das, was Snow 1853–54 tat, noch interessanter ist als die Fabel [des Broad Street Pump]. " Was das Sammeln statistischer Beweise anbelangt (andere vorbereitende Maßnahmen wie die Identifizierung von Indexfällen usw.), nutzte Snow die natürliche Variation , um ein wirklich bemerkenswertes Quasi-Experiment durchzuführen.

Es stellte sich heraus, dass es zu einem früheren Zeitpunkt in London einen heftigen Wettbewerb zwischen den Wasserversorgungsunternehmen gab, und dies führte zu einer räumlichen Vermischung der Wasserversorgung, die (in Schnees Worten) "von der intimsten Art" war.

Die Pfeifen jeder Kompanie verlaufen auf allen Straßen und in fast allen Gerichten und Gassen. Ein paar Häuser werden von einem Unternehmen und ein paar von dem anderen nach der Entscheidung des Eigentümers oder des Eigentümers zu der Zeit geliefert, als die Wasserunternehmen in einem aktiven Wettbewerb standen.

...

Da es keinen Unterschied zwischen den Häusern oder den Menschen gibt, die die Versorgung der beiden Wasserversorgungsunternehmen erhalten, oder zwischen den physischen Bedingungen, mit denen sie umgeben sind, ist es offensichtlich, dass kein Experiment hätte ausgedacht werden können, das die Situation gründlicher testen würde Auswirkung der Wasserversorgung auf das Fortschreiten der Cholera als diese, welche Umstände dem Betrachter bereit gestellt wurden.

- John Snow

Ein weiteres kritisch wichtiges Stück „natürlicher Variation“, das John Snow in diesem Quasi-Experiment ausnutzte, war die Tatsache, dass eine Wasserversorgung an der Themse stromabwärts von Abwassereinleitungen betrieben wurde , während die andere einige Jahre zuvor ihre Versorgung stromaufwärts verlagerte . Ich lasse Sie raten, welches aus John Snow's Datentabelle stammt!

                     | Anzahl der | Cholera | Todesfälle pro
Unternehmen | Häuser | Todesfälle 10.000 Häuser
-------------------------------------------------- --------
Southwark & ​​Vauxhall | 40,046 | 1263 | 315
Lambeth | 26,107 | 98 | 37
Rest von London | 256,423 | 1422 | 59

Wie Freedman verwelkt bemerkt,

Als ein Stück statistischer Technologie ist [die obige Tabelle] keineswegs bemerkenswert. Aber die Geschichte, die es erzählt, ist sehr überzeugend. Die Stärke des Arguments ergibt sich aus der Klarheit der vorherigen Überlegungen, der Zusammenführung vieler verschiedener Beweislinien und der Menge an Schuhleder, die Snow bereit war, zu verwenden, um die Daten zu erhalten. [1, S.51]

Ein weiterer Punkt der natürlichen Variation von Schnee ausgebeutet ereignete sich in der Zeit Dimension: die oben genannte Verlagerung Wasseraufnahme erfolgte zwischen zwei Epidemien, so dass Schnee die gleiche Firma , Wasser mit und ohne Zusatz von Abwasser zu vergleichen. (Dank an Philip B. Stark, einen Autor von [1], für diese Info über Twitter . Siehe diesen Online-Vortrag von ihm.)


Diese Angelegenheit liefert auch eine lehrreiche Studie über den Kontrast zwischen Deduktivismus und Induktivismus , wie in dieser Antwort diskutiert .

  1. Freedman D, Collier D, Sekhon JS, Stark PB. Statistische Modelle und kausale Folgerungen: Ein Dialog mit den Sozialwissenschaften. Cambridge; New York: Cambridge University Press; 2010.

  2. Freedman DA. Statistische Modelle und Schuhleder. Soziologische Methodik . 1991; 21: 291 & ndash; 313. doi: 10.2307 / 270939. Voller Text

David C. Norris
quelle
1
+1 für den Hinweis, dass die bloße Identifizierung eines Epizentrums nicht ausreicht, um das "John-Snow-Problem" wie angegeben zu lösen. Die Miasma-Theorie war eine der damals vorherrschenden Theorien, wie David betont. Um die Miasma-Theorie zu verfälschen, müsste man zeigen, dass die geografischen Raten nicht mit der Nähe zum Fluss steigen. Ein moderner Ansatz für dieses Problem könnte Kriging verwendet haben.
AdamO
Vielen Dank, @AdamO; aber ich frage mich, wie Kriging in diesem Fall die "intime" räumliche Vermischung aufnehmen würde, was beinahe einen Affront gegen die Kontinuität darstellt, die für die Anwendung einer Interpolationstechnik erforderlich ist (wie ich es unter Kriging verstehe).
David C. Norris
Vielleicht habe ich Schnees Worte falsch verstanden: Meine Vermutung war, dass die "innige Vermischung [der Versorgungsquellen von Wasserpumpen]" sich auf ein nahezu perfektes Blockdesign bezog, bei dem jede konzentrische Schicht von Stadtblöcken, geschichtet nach Entfernung vom Fluss, mindestens einige hatte Pumpen der Zulieferer A, B, C ... dies hat mit der Annahme zu tun, dass das kontaminierte Wasser Cholera verursacht. Kriging würde die Miasma-Hypothese zurückweisen, indem er aufzeigt, dass die Nähe zum Fluss nicht mit einer erhöhten Cholera-Inzidenz verbunden ist. Dies wird durch die Leute unterstützt, die an den Pumpen gießen: Das Miasma wandert nicht mit der Pfeife.
AdamO
2
@AdamO Tatsächlich hatte William Farr die Sterblichkeitsraten für Cholera (ab 1849) untersucht und sie mit der Höhe über der Themse verglichen. Die Korrespondenz zwischen diesen Variablen ist auffällig und entspricht nahezu den Vorhersagen der Miasma-Theorie. Siehe Langmuir AD. Bacteriological Review 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). In diesem Artikel wird darauf hingewiesen, dass seine Theorie selbst zum Zeitpunkt des Todes von Dr. Snow im Jahr 1858 "in offiziellen Kreisen nicht akzeptiert" wurde.
Whuber
1
Vielen Dank für diese Hinweise, @whuber. Zur Kuration stelle ich fest, dass der Artikel von Langmuir offen zugänglich ist .
David C. Norris