Kann ich Bootstrapping verwenden, warum oder warum nicht?

10

Ich arbeite derzeit an Schätzungen der Biomasse mithilfe von Satellitenbildern. Ich werde schnell den Hintergrund meiner Frage definieren und dann die statistische Frage erklären, an der ich arbeite.

Hintergrund

Problem

Ich versuche, die Biomasse in einem Gebiet in Frankreich abzuschätzen. Meine Antwort ist die Dampfholzvolumendichte (in ), die mehr oder weniger proportional zur Biomasse ist (abhängig von der Holzdichte ...).m3/ha

Die unabhängigen Variablen, die ich habe, sind Vegetationsindizes, die aus gemessenen Reflexionsgraden über diesem Gebiet abgeleitet wurden (der in der Studie verwendete Satellit ist MODIS für diejenigen, die ihn kennen). Diese Indizes sind zum Beispiel NDVI, EVI usw. Ich habe Karten der Indizes und die Auflösung der Karten beträgt 250 m.

Es gibt starke Korrelationen zwischen diesen Indizes und dem Volumen in demselben Waldtyp (Biom und Klima). Ich versuche also, die Volumendichte gegen diese Indikatoren (eigentlich ihre Zeitreihen) in Inventardiagrammen zu regressieren, in denen ich das Volumen kenne.

Waldinventare

Das Volumen auf diesen Parzellen wird mit der folgenden Stichprobenmethode geschätzt:

  1. Inventarknoten werden in einem regelmäßigen Raster platziert, das den Bereich abdeckt.
  2. Jedem Knoten ist ein Diagramm zugeordnet, und der Inventarisierungsprozess (Baumtypen, Volumen, Überdachungshöhe usw.) erfolgt auf diesem Diagramm. Natürlich interessiert mich nur das Inventardiagramm und die Werte meiner Vegetationsindizes sind der Wert des Pixels, das das Diagramm enthält.
  3. Der Inventarisierungsprozess auf einem Grundstück ist wie folgt:

    http://i.stack.imgur.com/DeHdC.png

    • Maß der Bäume mit einem Durchmesser> 37,5 cm im Kreis mit einem Radius von 15 m
    • Maß der Bäume mit einem Durchmesser> 22,5 cm im Kreis mit 9 m Radius
    • Maß der Bäume mit einem Durchmesser> 7,5 cm im Kreis mit 6 m Radius

Die Volumendichte wird dann unter Verwendung von Expansionsfaktoren berechnet.

Für jedes Grundstück habe ich Zugriff auf die Daten aller gemessenen Bäume.

Darüber hinaus habe ich für jeden einzelnen Baum aufgrund der Verwendung allometrischer Gleichungen eine Unsicherheit über das Volumen (sagen wir 10%).

Wo Statistiken wichtig sind ...

Damit meine Regressionen genauer sind, benötige ich für jede Volumenschätzung die Varianz / den CI dieses Maßes. Dies hängt, IMO, von der Anzahl der untersuchten Bäume und der gefundenen Volumendichte ab.

Ich habe also zwei Probleme:

  1. Wie kann ich die Tatsache berücksichtigen, dass meine Vegetationsindizes über ein Pixel von 250 m gemessen werden?

    Ich kann davon ausgehen, dass die Volumendichte über ein Pixel konstant ist und dass ich dieses Pixel mit einem Inventardiagramm abtastet.

  2. Wie kann ich die Variabilität meiner Volumendichte abschätzen?

    Ich denke, ich könnte Bootstrapping für die Baumpopulation verwenden. Aber meine Gesamtzahl der gemessenen Bäume kann ziemlich klein sein (von 7 bis 20 ...). Wie kann ich außerdem berücksichtigen, dass ich die Bäume je nach Größe in verschiedenen Kreisen messe? Und wie sollte sich die Variabilität ändern, wenn ich ein ganzes Pixel betrachte?

Ich dachte auch, ich könnte eine Monte-Carlo-Simulation verwenden, um einen Wald zu simulieren, und dann diesen Wald zufällig mit Parzellen abtasten, um zu sehen, was los ist ...

Ich habe keinen starken statistischen Hintergrund, also bin ich ein bisschen verloren!

Thomas C.
quelle

Antworten:

1

Ich verstehe Ihre Daten nicht sehr gut, aber ich kann Ihnen sagen, dass eine Alternative zum multinomialen Bootstrap, die bei seltenen Ereignissen besser funktioniert, Störung / wilder Bootstrap ist. Die Störung ist äußerst flexibel und kann häufig mit Nicht-ID-Daten umgehen. Manchmal ist jedoch viel Finesse erforderlich, um das PDF korrekt zu approximieren. Wenn es Ihnen gelingt, die Bootstrap-Formel korrekt anzugeben, werden Sie weniger Annahmen treffen und wahrscheinlich weniger voreingenommen sein als die zuvor vorgeschlagene Glättungsmethode, insbesondere angesichts Ihres spärlichen Datensatzes, wodurch Dichteschätzungen instabil werden können.

guest47
quelle
0

Wenn ich mich diesem Problem nähern müsste, würde ich zuerst beginnen mit:

  1. Betrachten einer Karte der Quelldaten
  2. Versuchen Sie, eine Art 2D-Glättung auf der Oberfläche vorzunehmen, und informieren Sie diese mit AIC
  3. Berechnen Sie die Ableitung der Glättung an der Stelle und beziehen Sie die Variation der Eingabe auf die Variation der Ausgabe unter Verwendung der Delta-Methode
  4. Vergleichen Sie die Ergebnisse mit einigen "bekannten" Werten, um den Ansatz zu verifizieren / validieren

Relevante Links: http://www.stanford.edu/class/cme308/notes/TaylorAppDeltaMethod.pdf http://www.ingentaconnect.com/content/klu/stco/2010/00000020/00000004/00009140?crawler=true

EngrStudent
quelle