Ich unterstütze ein Gesundheitsamt statistisch. Wie Sie sich vorstellen können, stellen wir regelmäßig viele Karten zusammen. Für mich sind Karten nur eine andere Art der Datenvisualisierung - nützlich, um ein Gefühl für die Daten zu bekommen, Hypothesen zu generieren und zu überprüfen usw. Wir führen jedoch nicht oft die eigentliche Modellierung und das Testen von Hypothesen durch .
Wie gehen Sie / Ihre Organisation vor? Wie sieht ein Workflow mit Inferenz aus? Wer ist beteiligt? Welche Tools verwenden Sie? Wie würde es im Idealfall aussehen, wenn Sie Ihren Willen hätten?
Vielen Dank!
BEARBEITEN
Um es klar auszudrücken, ich bin neugierig auf verschiedene Strategien, um von Geodaten zu formalen, statistischen Tests von Hypothesen über das, was in der Welt vor sich geht, überzugehen. Nehmen wir zum Beispiel an, ich versuche, eine Aufklärungskampagne durchzuführen, um die Tuberkulose-Tests zu verbessern. Ich würde (persönlich) die Fälle von TB gegen interessierende Kovariaten (z. B. Durchschnittseinkommen oder Prozentsatz der im Ausland geborenen Einwohner) abbilden und versuchen, festzustellen, ob es Muster gibt.
Ich könnte oder könnte keine finden; Aber ich würde letztendlich ein Modell erstellen, um die Assoziation zwischen diesen Kovariaten und der Anzahl der Demografien abzuschätzen. Dies ist ein kritischer Schritt, da Menschen gut darin sind, Muster zu finden, in denen es keine gibt, oder uninteressante. Ich weiß, wie man das alleine macht, aber ich bin gespannt, wie verschiedene Organisationen es institutionalisieren (wenn überhaupt).
quelle
Antworten:
Sehr interessante Frage!
Erstens spielt Ihre Frage auf das an, was ich als "Data Mining" bezeichne, und ich denke, es lohnt sich, das Problem explizit zu wiederholen, da einige Leute hier es möglicherweise nicht verstanden haben: mit einem Datensatz (muss nicht räumlich sein), um eine statistisch gültige zu erreichen Beziehung die Konvention ist, dass es mit oder über 95% Wahrscheinlichkeit sein muss. Wenn Sie jedoch 20 Tests durchführen, ist die Wahrscheinlichkeit hoch, dass mindestens eines der statistisch gültigen Ergebnisse, die Sie erhalten, auf den reinen Zufall zurückzuführen ist. Es ist also eine schlechte Praxis, mit einem Datensatz herumzuspielen (in GIS würde er ihn zuordnen), um viele mögliche Beziehungen zwischen Variablen zu visualisieren, eine interessante zu finden und die Statistiken einzufügen und das Ergebnis zu zitieren, als wäre dies der einzige Test, den Sie durchführen getan hatte. Sie können das Ergebnis weiterhin verwenden, müssen jedoch die Anzahl der durchgeführten Tests berücksichtigen.
Ist es das, worauf du gefahren bist?
Ihre Frage scheint zu fragen, wie sich die Leute formalisieren, um dieses Problem zu vermeiden. Meine Antwort ist, dass die von Ihnen erwähnte Option "überhaupt nicht" üblich ist. Medizinische Statistiker (z. B. meine Freundin) wenden meiner Erfahrung nach einen viel höheren Grad an Genauigkeit auf diese Art von Prozess an als in anderen Bereichen. Ich vermute, dass alle Arten von Datenmapping außerhalb der öffentlichen Gesundheit ohne jegliche formelle Berücksichtigung der Problem mit Blindformeln, die blind angewendet werden, ohne den Prozess richtig zu verstehen. Ein geologisches Beispiel fällt mir ein:
Ich habe ein Peer-Review-Papier gelesen, in dem die Autoren untersucht haben, wie sich die Bohrlochausbeute (Menge an Wasser, die gepumpt werden kann) auf geologische und räumliche Einflüsse in Afrika auswirkt, z. Die Idee war, Bohrlochbohrern zu helfen, damit sie die besten Standorte für Bohrlöcher finden können. Die Autoren haben die Daten, die alle Arten von Variablen kombinierten, eklatant analysiert, um festzustellen, welche ein Konfidenzniveau von 95% aufwiesen, und (ich nehme an) keiner der Gutachter hatte die Gültigkeit der Ergebnisse in Frage gestellt. Ihre Schlussfolgerungen waren daher völlig unzuverlässig.
Hoffe das ist von Interesse
quelle