Modell zur Schätzung der Bevölkerungsdichte

14

Eine Datenbank mit (Bevölkerung, Fläche, Form) kann verwendet werden, um die Bevölkerungsdichte abzubilden, indem jeder Form ein konstanter Wert für Bevölkerung / Fläche zugewiesen wird (dies ist ein Polygon wie ein Zensusblock, ein Gebiet, eine Grafschaft, ein Bundesland usw.). Die Populationen sind jedoch normalerweise nicht gleichmäßig in ihren Polygonen verteilt. Die dasymetrische Abbildung ist der Prozess der Verfeinerung dieser Dichteschätzungen mithilfe von Hilfsdaten. Es ist ein wichtiges Problem in den Sozialwissenschaften, wie aus dieser jüngsten Überprüfung hervorgeht.

Nehmen wir also an, wir hätten eine Hilfskarte der Landbedeckung (oder einen anderen diskreten Faktor) zur Verfügung. Im einfachsten Fall können wir offensichtlich unbewohnbare Gebiete wie Gewässer zur Abgrenzung dessen verwenden, wo die Bevölkerung nicht ist, und dementsprechend die gesamte Bevölkerung den verbleibenden Gebieten zuordnen. Allgemeiner wird jede Zählungseinheit j in k Abschnitte mit Oberflächenbereichen xji , geschnitten i=1,2,,k. Unser Datensatz wird dadurch um eine Liste von Tupeln erweitert

(yj,xj1,xj2,,xjk)

Dabei ist yj die Grundgesamtheit (angenommen, fehlerfrei gemessen) in der Einheit j und obwohl dies nicht unbedingt der Fall ist, können wir annehmen, dass jedes xji auch genau gemessen wird. In diesen Begriffen besteht das Ziel darin, jedes yj in eine Summe aufzuteilen

yj=zj1+zj2++zjk

wobei jedes zji0 und zji schätzt die Population innerhalb der Einheit j in der Bodenbedeckung Klasse wohn i . Die Schätzungen müssen unvoreingenommen sein. Diese Partition verfeinert die Bevölkerungsdichtekarte, indem die Dichte zji/xji dem Schnittpunkt des jth Volkszählungspolygons und der ith Landbedeckungsklasse zugewiesen wird.

Dieses Problem unterscheidet sich in wesentlichen Punkten von den Standardeinstellungen für die Regression:

  1. Die Aufteilung jedes yj muss exakt sein.
  2. Die Komponenten jeder Partition dürfen nicht negativ sein.
  3. Es gibt (unter der Annahme) keinen Fehler in irgendwelchen Daten: Alle Bevölkerungszählungen und alle Bereiche x j i sind korrekt. yjxji

Es gibt viele Lösungsansätze, wie zum Beispiel die " Intelligent dasymetric mapping " -Methode, aber alle, über die ich gelesen habe, haben Ad-hoc- Elemente und ein offensichtliches Verzerrungspotential. Ich suche Antworten, die kreative, rechnergestützte statistische Methoden vorschlagen. Der sofortige Antrag betrifft eine Sammlung von c. - 10 6 Volkszählungs-Einheiten mit durchschnittlich 40 Personen pro Person (obwohl ein beträchtlicher Teil 0 Personen hat) und ungefähr einem Dutzend Landbedeckungsklassen.105106

whuber
quelle
Formatierungsproblem behoben Es war ein Fehler.
Rob Hyndman
@Rob Vielen Dank und vielen Dank an alle, die sich das angeschaut haben: Ich habe Ihre Kommentare gesehen, bevor sie gelöscht wurden, und bin dankbar für Ihre Bemühungen.
whuber
1
Auch dieses: P. A Zandbergen und D. A Ignizio, „Vergleich der dasymetrischen Kartierungstechniken für Bevölkerungsschätzungen kleiner Gebiete“, Kartographie und Geoinformationswissenschaft 37, Nr. 3 (2010): 199–214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/… Dies scheint ein Zeichen für eine Vermischung zu sein.
3.
1
Dieses Papier könnte nützlich sein: Hwahwan Kim und Xiaobai Yao, „Pyknophylaktische Interpolation überarbeitet: Integration mit dem dasymetrischen Mapping-Verfahren“, International Journal of Remote Sensing 31, No. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805
3.
1
Wissen Sie, dasymetrische Mapping ist letztendlich ein ökologisches Inferenzproblem. Die jüngste Arbeit von K. Imai könnte hilfreich sein: pan.oxfordjournals.org/content/16/1/41.abstract
fgregg

Antworten:

4

Vielleicht möchten Sie die Arbeit von Mitchel Langford auf dasymetrische Mapping überprüfen.

Er erstellt Raster, die die Bevölkerungsverteilung in Wales darstellen, und einige seiner methodologischen Ansätze könnten hier nützlich sein.

Update: Vielleicht sehen Sie sich auch die Arbeit von Jeremy Mennis an (insbesondere diese beiden Artikel).

radek
quelle
2
Vielen Dank. Diese Arbeit liefert einen Hinweis auf ein Netz der jüngsten Forschungen zur dasymetrischen Abbildung.
Whuber
2

Interessante Frage. Hier ist ein vorläufiger Versuch, dies aus einem statistischen Blickwinkel zu betrachten. Angenommen, wir haben eine Möglichkeit gefunden, jedem Bereich x j i eine Bevölkerungszahl zuzuweisenxji . Bezeichnen Sie diese Beziehung wie folgt:

zji=f(xji,β)

Es ist klar, welche funktionale Form wir auch immer f(.) Auferlegen, bestenfalls eine Annäherung an die reale Beziehung und damit die Notwendigkeit darstellt, Fehler in die obige Gleichung aufzunehmen. So wird das Obige:

zji=f(xji,β)+ϵji

wo,

ϵjiN(0,σ2)

Die Annahme eines Verteilungsfehlers für den Fehlerausdruck dient nur zur Veranschaulichung. Bei Bedarf können wir dies gegebenenfalls ändern.

Wir brauchen jedoch eine genaue Zerlegung von . Daher müssen wir die Fehlerbegriffe und die Funktion f ( . ) Wie folgt einschränken :yjif(.)

iϵji=0

if(xji,β)=yj

Bezeichne den gestapelten Vektor von mit z j und die gestapelten deterministischen Terme von f ( x j i , β ) mit f j . Somit haben wir:zjizjf(xji,β)fj

zjN(fj,σ2I)I(fje=yj)I((zjfj)e=0)

wo,

ist ein Vektor mit einer geeigneten Dimension.e

Die erste Indikatorbeschränkung erfasst die Idee, dass die Summe der deterministischen Terme zu und die zweite die Idee, dass die Fehlerreste zu 0 summieren sollen.yj

yjσ2

Bearbeiten 1

Wenn man etwas mehr darüber nachdenkt, kann die obige Formulierung vereinfacht werden, da sie mehr Einschränkungen als nötig hat.

zji=f(xji,β)+ϵji

wo,

ϵjiN(0,σ2)

Bezeichne den gestapelten Vektor von z j i mit z j und die gestapelten deterministischen Terme von f ( x j i , β ) mit f j . zjizjf(xji,β)fj

zjN(fj,σ2I)I(zje=yj)

wo,

e

zj


quelle
2
@Srikant Danke. Bei der Beantwortung der Frage habe ich in ähnlicher Weise nachgedacht und seitdem eine GLM (Poisson-Verteilung mit linearer Verknüpfung) sowie einige andere Modelle getestet . Leider sieht es jetzt so aus, als würde jedes Modell, das ausschließlich auf der Art und dem Anteil der Landbedeckung basiert, nicht gut funktionieren. Eine Stichprobe dieser Daten legt nahe, dass das Bevölkerungsmuster von einem größeren räumlichen Kontext abhängt. Wir müssten also mindestens räumlich verzögerte Kovariaten in ein lineares Modell einbeziehen.
whuber