Berechnung der mittleren Steigung: Harmonisches oder arithmetisches Mittel?

11

Ich muss die durchschnittliche prozentuale Steigung der Steigung für einen großen Datensatz berechnen. Die grundlegende Methode wird hier detailliert beschrieben . Ich habe mich jedoch gefragt, ob das harmonische Mittel geeigneter sein könnte als das standardmäßige arithmetische Mittel, da es sich technisch gesehen um eine Änderungsrate handelt. Ich habe dies in keiner der anderen Diskussionen über die Mittelung der Steigung über Punkte, Bereiche, Linien usw. gesehen. Es sollte ziemlich einfach zu bewerkstelligen sein.

Bearbeiten: Der Zweck der Berechnung der durchschnittlichen Steigung in diesem Fall besteht darin, einen (von vielen) Parameter zu generieren, der zur Modellierung der Kanalinitiierungsschwellen verwendet wird. Ich habe eine Reihe von vor Ort gesammelten Kanalkopfpositionen, an denen ich die Flussakkumulation, verschiedene durchschnittliche Steigungsparameter usw. sammle und mehrere lineare Regressionen verwende, um zu versuchen, Akkumulationsschwellen in Bezug auf die anderen Parameter zu beschreiben.

Jay Guarneri
quelle
4
Dies hängt davon ab, warum Sie die durchschnittliche Steigung berechnen. Was ist der Zweck? Welche physikalische Größe versuchen Sie zu messen? Obwohl viele Formen des Durchschnitts legitim sind, achten Sie auf das harmonische Mittel: Es verursacht Probleme, wenn eine Steigung Null ist, was häufig vorkommt.
whuber

Antworten:

10

Die durchschnittliche Steigung klingt nach einer natürlichen Größe, ist aber eher seltsam. Zum Beispiel ist die durchschnittliche Steigung einer flachen horizontalen Ebene Null, aber wenn Sie einem DEM dieser Ebene ein kleines Stück zufälliges, durchschnittliches Rauschen von Null hinzufügen, kann die durchschnittliche Steigung nur steigen . Andere seltsame Verhaltensweisen sind die Abhängigkeit der durchschnittlichen Steigung von der DEM-Auflösung, die ich hier dokumentiert habe , und ihre Abhängigkeit davon, wie das DEM erstellt wurde. Zum Beispiel sind einige DEMs, die aus Konturkarten erstellt wurden, tatsächlich leicht terrassiert - mit winzigen abrupten Sprüngen, wo die Konturlinien liegen -, aber ansonsten sind sie genaue Darstellungen der Oberfläche insgesamt. Diese abrupten Sprünge können die durchschnittliche Steigung ändern, wenn sie im Mittelungsprozess zu viel oder zu wenig Gewicht erhalten.

Das Anheben der Gewichtung ist relevant, da tatsächlich ein harmonisches Mittel (und andere Mittel) die Steigungen unterschiedlich gewichten. Um dies zu verstehen, betrachten Sie das harmonische Mittel von nur zwei positiven Zahlen x und y . Per Definition,

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

wobei die Gewichte a = y / (x + y) und b = x / (x + y) sind. (Diese verdienen es, "Gewichte" genannt zu werden, weil sie positiv sind und sich zu Eins summieren. Für das arithmetische Mittel sind die Gewichte a = 1/2 und b = 1/2). Offensichtlich ist das an x gebundene Gewicht gleich y / (x + y) groß, wenn x im Vergleich zu y klein ist . Harmonisch bedeutet also, die kleineren Werte zu übergewichten.

Es kann hilfreich sein, die Frage zu erweitern. Das harmonische Mittel gehört zu einer Familie von Durchschnittswerten, die durch einen reellen Wert p parametrisiert sind . So wie das harmonische Mittel erhalten wird, indem die Kehrwerte von x und y gemittelt werden (und dann der Kehrwert ihres Durchschnitts genommen wird), können wir im Allgemeinen die p-ten Potenzen von x und y mitteln (und dann die 1 / p-te Potenz des Ergebnisses nehmen ). Die Fälle p = 1 und p = -1 sind das arithmetische bzw. das harmonische Mittel. (Wir können einen Mittelwert für p = 0 definieren, indem wir Grenzen setzen und dadurch auch als Mitglied dieser Familie den geometrischen Mittelwert erhalten.) Als pnimmt von 1 ab, die kleineren Werte werden immer stärker gewichtet; und wenn p von 1 ansteigt, werden die größeren Werte immer stärker gewichtet. Daraus folgt, dass der Mittelwert nur mit zunehmendem p zunehmen kann und mit abnehmendem p abnehmen muss. (Dies ist in der zweiten Abbildung unten ersichtlich, in der alle drei Linien entweder flach sind oder von links nach rechts zunehmen.)

Aus praktischer Sicht könnten wir stattdessen das Verhalten verschiedener Steigungsmittel untersuchen und dieses Wissen in unsere analytische Toolbox aufnehmen: Wenn wir erwarten, dass Steigungen eine Beziehung eingehen, so dass kleinere Steigungen stärker berücksichtigt werden sollten als Einfluss könnten wir einen Mittelwert mit p kleiner als 1 wählen ; und umgekehrt könnten wir p über 1 erhöhen, um die größten Steigungen hervorzuheben. Betrachten wir zu diesem Zweck verschiedene Formen von Entwässerungsprofilen in der Nähe eines Punktes.

Um zu zeigen, was vor sich gehen könnte, habe ich drei qualitativ unterschiedliche lokale Gebiete betrachtet : Zum einen sind alle Hänge gleich (was eine gute Referenz darstellt); Ein anderer ist, wo wir uns lokal am Boden einer Schüssel befinden: Um uns herum sind die Hänge Null, nehmen dann aber allmählich zu und werden schließlich um den Rand willkürlich groß. Die Umkehrung dieser Situation tritt auf, wenn nahegelegene Hänge mäßig sind, sich dann aber von uns abflachen. Das scheint ein realistisch breites Spektrum von Verhaltensweisen abzudecken.

Hier sind Pseudo-3D-Diagramme dieser drei Arten von Entwässerungsformen:

Diagramme in 3D

Hier habe ich die mittlere Steigung von jedem - mit der gleichen Farbcodierung - als Funktion von p berechnet , wobei p im Bereich von -1 (harmonischer Mittelwert) bis 2 liegt.

Steigung bedeutet vs p

Natürlich ist die blaue Linie horizontal: Unabhängig davon, welchen Wert p annimmt, kann der Mittelwert einer konstanten Steigung nichts anderes als diese Konstante sein (die als Referenz auf 1 gesetzt wurde). Die hohen Steigungen am äußersten Rand der roten Schale beeinflussen die mittleren Steigungen stark, wenn p variiert: Beachten Sie, wie groß sie werden, sobald p 1 überschreitet. Der horizontale Rand in der dritten (goldgrünen) Oberfläche verursacht das harmonische Mittel (p = - 1) Null sein.

Es ist bemerkenswert, dass sich die relativen Positionen der drei Kurven bei p = 0 (dem geometrischen Mittelwert) ändern: Für p größer als 0 hat die rote Schale größere durchschnittliche Steigungen als die blaue, während für negatives p die rote Schale einen kleineren Durchschnitt hat Hänge als das Blau. Somit kann Ihre Wahl von p sogar die relative Rangfolge der durchschnittlichen Steigungen ändern .

Die tiefgreifende Auswirkung des harmonischen Mittels (p = -1) auf die gelbgrüne Form sollte uns eine Pause geben: Es zeigt, dass das harmonische Mittel so klein sein kann, dass es jeden Einfluss von überwältigt , wenn genügend kleine Steigungen in der Entwässerung vorhanden sind alle anderen Pisten.

Im Sinne einer explorativen Datenanalyse können Sie eine Variation von p in Betracht ziehen - möglicherweise einen Bereich von 0 bis etwas größer als 1, um extreme Gewichte zu vermeiden - und herausfinden, welcher Wert die beste Beziehung zwischen der mittleren Steigung und der von Ihnen verwendeten Variablen herstellt modellieren (z. B. Schwellenwerte für die Kanalinitialisierung). "Am besten" wird normalerweise im Sinne von "am linearsten" oder "konstante [homoskedastische] Residuen" in einem Regressionsmodell verstanden.

whuber
quelle
Danke für die gründliche Analyse! Ich muss ein bisschen darüber nachdenken.
Jay Guarneri
1

Ich verfolgte einen empirischen Ansatz, um eine ergänzende Antwort auf die ausgezeichnete theoretische Antwort von whuber zu finden. Ich beschloss, die Steigung in Grad und den Durchschnitt anhand eines Winkelmittelwerts zu berechnen . Als nächstes berechnete ich das arithmetische und harmonische Mittel der prozentualen Steigung. Ich erstellte eine Reihe von Stichprobenpunkten, die zufällig im Untersuchungsgebiet angeordnet waren. Ich habe 2000 Punkte mit einer Mindestentfernung von 100 m angefordert, was 1326 Punkte ergab. Ich habe die Werte jedes mittleren Steigungsrasters an jedem Punkt abgetastet und die prozentualen Mittelwerte mithilfe der Formel in Grad umgerechnet Degrees = atan(percent/100). Ich gehe hier davon aus, dass der Winkelmittelwert die "richtige" mittlere Steigung in Grad ergibt, und welcher prozentuale Mittelwert auch immer näher kommt, wäre das richtige Verfahren.

Als nächstes verglich ich alle Nicht-Null-Werte mit einem Kruskal-Wallace-Test (wobei angenommen wurde, dass für die meisten Null-Steigungswerte in allen drei Werten Null wäre und dass Nullwerte die Unterschiede zwischen den Methoden maskieren würden). Ich fand einen signifikanten Unterschied zwischen den drei (Chi-Quadrat = 17,9570, DF = 2, p = 0,0001), also untersuchte ich die Daten weiter unter Verwendung des Dunn-Verfahrens unter Verwendung von Alpha = 0,05 (Elliot und Hynan 2011) . Das Endergebnis ist, dass sich das arithmetische und das harmonische Mittel signifikant voneinander unterscheiden, während sich das mittlere signifikant vom Winkelmittel unterscheidet:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

Wenn meine Annahmen alle richtig wären (sie könnten es sehr wohl nicht sein), bedeutet dies, dass die harmonischen und arithmetischen Mittel zwar unterschiedliche Werte voneinander erzeugen, beide jedoch "eng genug" mit dem Winkelmittelwert sind, um akzeptabel zu sein. Es gibt hier zwei weitere Vorbehalte, an die ich denken kann (bitte fügen Sie weitere hinzu, wenn Sie an sie denken):

  1. Bei einer größeren Stichprobe kann ein signifikanter Unterschied zwischen dem prozentualen Mittelwert und dem Winkelmittelwert festgestellt werden. Meine Stichprobengröße betrug jedoch ~ 1000 Punkte nur für die Werte ungleich Null.
  2. Da meine Probenpunkte ohne Rücksicht auf Entwässerungsbecken platziert wurden, kann es zu einer Pseudoreplikation kommen, da jede mittlere Steigung mit den mittleren Steigungen darüber in Beziehung steht.
Jay Guarneri
quelle
1
Dies ist interessant (+1), aber beachten Sie die Einschränkungen. (1) Ja, wenn Sie eine größere Stichprobe wählen, werden Sie feststellen, dass alle Unterschiede signifikant sind. Es macht daher keinen Sinn, einen statistischen Hypothesentest durchzuführen: Sie möchten sich auf das Ausmaß der Unterschiede zwischen den Verfahren konzentrieren. (2) Ihre Ergebnisse hängen vollständig von den tatsächlichen Eigenschaften Ihrer Daten ab. Sie variieren mit anderen Datensätzen. (3) Das Winkelmittel ist als Referenz nützlich, aber keineswegs ein bevorzugter Wert. Welche Referenz als Referenz verwendet werden soll, hängt ganz davon ab, wie der Mittelwert für weitere Analysen oder Kartierungen verwendet wird.
whuber
0

Unter der Annahme, dass keine Parameter bekannt sind, die die Steigung definieren, würde jeder Statistiker sagen, dass er die Steigung verwendet, die die RMS-Abweichungen der Daten davon minimiert. (Natürlich sind Whubers Beispiele nicht geeignet, da er mathematisch erzeugte Landformen ausgewählt hat, aber für echte Landformen sollte die Annahme unbekannter Parameter gültig sein.)

johnsankey
quelle
Diese Antwort wird geschätzt, aber ich denke, sie versteht die Situation falsch. Am wichtigsten ist, dass diese Steigungen nicht zum Anpassen von Kurven verwendet werden: Das Konzept der "RMS-Abweichungen der Daten" ist einfach nicht anwendbar. Zweitens habe ich qualitative Landformtypen ausgewählt, um ein breites Spektrum dessen zu erfassen, was wirklich angetroffen wird, und ich behaupte, sie geben nützliche Informationen darüber, was zu erwarten ist. Reale Datensätze tragen nicht viel zum Verständnis der Vorgänge hier bei, da es keine "echte" durchschnittliche Steigung gibt. Die Hauptfrage ist, welche Durchschnittswerte nützlich oder informativ sind.
whuber
1
Übrigens glaube ich, dass ich einige Qualifikationen als Statistiker habe. Das macht meine Meinung zu dieser Angelegenheit nicht besser oder schlechter: Wie bei allen anderen muss ich sie so klar und objektiv wie möglich belegen, und ich bin sehr anfällig dafür, falsch zu liegen und meine Meinung zu ändern: ). Ich biete diesen Punkt nur als Gegenpol zu Ihrer Bemerkung "Jeder Statistiker" an.
whuber
Die Frage, welche Anpassung nützlich ist, hängt davon ab, wofür die Steigung verwendet werden soll. Für das Land-Einbruchspotential würden beispielsweise die steileren Steigungen im Vergleich zu milden Steigungen gemäß einem Einbruchspotential-zu-Hang-Modell höher gewichtet, dann sollte der RMS-Anpassungsansatz gültig sein. Andere Gewichtungsmodelle würden verwendet, um anderen Verwendungen zu entsprechen. Kurz gesagt, modellieren Sie alles, was wir wissen, durch Gewichtung oder andere Mittel und verlassen Sie sich dann auf RMS als Modell für alles, was wir nicht tun.
Johnsankey
Ich stimme der Prämisse dieses Kommentars zu, John, aber ich sehe nicht, wie Ihre Schlussfolgerung folgt. Wenn die steileren Steigungen schwerere Gewichte erhalten sollen, scheint RMS genau das zu sein, was Sie nicht möchten, da alle Abweichungen unabhängig von der Steigung gleich gewichtet werden. Darüber hinaus kann RMS als quadratische Verlustfunktion kein universeller Ersatz für das sein, was andere Techniken erreichen können, einschließlich nichtlinearer Reexpressionen der Steigung und der Verwendung alternativer Verlustfunktionen (wie sie beispielsweise von robusten Anpassungsmethoden ausgenutzt werden).
whuber
RMS enthält Gewichte
Johnsankey