Wie berechne ich eine gewichtete Standardabweichung? In Excel?

29

Ich habe also einen Datensatz mit folgenden Prozentsätzen:

100   /   10000   = 1% (0.01)
2     /     5     = 40% (0.4)
4     /     3     = 133% (1.3) 
1000  /   2000    = 50% (0.5)

Ich möchte die Standardabweichung der Prozentsätze ermitteln, aber nach dem Datenvolumen gewichtet. dh der erste und der letzte Datenpunkt sollten die Berechnung dominieren.

Wie mache ich das? Und gibt es eine einfache Möglichkeit, dies in Excel zu tun?

Yahel
quelle
Die Formel mit (M-1) / M ist richtig. Wenn Sie Zweifel haben, überprüfen Sie dies, indem Sie alle Gewichte auf 1 setzen. Sie erhalten dann die klassische Formel für die unverzerrte Schätzung der Standardabweichung mit (N-1) im Nenner. Ungewöhnlich heißt nicht falsch.
1
Die Formel mit (M-1) / M ist NICHT KORREKT. Stellen Sie sich vor, Sie addieren eine Million Punkte mit Gewichten von einem Billionstel. Sie ändern Ihre Antwort überhaupt nicht, unabhängig davon, wie hoch diese Gewichte sind, aber Ihr Term wird zu 1? Absolut nicht! Wenn es Sie interessiert, dass , dann interessiert es Sie auch, dass dies einfach falsch ist. (M1)/M(M1)/M1
Rex Kerr
Die höchste Stimme ist richtig. Bitte überprüfen Sie itl.nist.gov/div898/software/dataplot/refman2/ch2/weightsd.pdf
Bo Wang
Ich frage mich, warum Sie die Standardabweichung hier wollen? Du hast nur Nummern! Wie ist das zu viele Zahlen? Vor allem, wenn Prozentsätze leichter zu erklären und zu verstehen sind. 4
Wahrscheinlichkeitsrechnung
@ probabilityislogic war ein vereinfachtes Beispiel, um die Frage kurz zu halten.
Yahel

Antworten:

35

Die Formel für die gewichtete Standardabweichung lautet:

i=1Nwi(xix¯)2(M1)Mi=1Nwi,

woher

N ist die Anzahl der Beobachtungen.

M ist die Anzahl der Gewichte ungleich Null.

wi sind die Gewichte

xi sind die Beobachtungen.

x¯ ist das gewichtete Mittel.

Denken Sie daran, dass die Formel für den gewichteten Mittelwert lautet:

x¯=i=1Nwixii=1Nwi.

Verwenden Sie die entsprechenden Gewichte, um das gewünschte Ergebnis zu erzielen. In Ihrem Fall würde ich vorschlagen, .Number of cases in segmentTotal number of cases

Dazu müssen Sie in Excel zuerst den gewichteten Mittelwert berechnen. Berechnen Sie dann die in einer separaten Spalte. Der Rest muss sehr einfach sein.(xix¯)2

deps_stats
quelle
2
@ Gilles, du hast recht. deps_stats, der Bruch in der SD ist ungewöhnlich. Haben Sie ein Zitat für diese Formel oder können Sie zumindest den Grund für die Aufnahme dieses Begriffs erklären? (M1)/M
Whuber
4
@Aaron-Gewichte werden nicht immer als Summe der Einheit definiert, wie die in dieser Frage angegebenen Gewichte zeigen!
Whuber
2
(-1) Ich Downvoting diese Antwort , weil keine Rechtfertigung oder Referenz für den Begriff bereitgestellt worden ist (und ich bin mir ziemlich sicher ist es nicht die Schätzung der Varianz unvoreingenommenen machen, die sein wäre offensichtlich Motivation). (M1)/M
Whuber
1
In Anbetracht des hinzugefügten Verweises (der nicht maßgeblich ist, aber ein Verweis ist) entferne ich die Ablehnung. Ich stimme dieser Antwort jedoch nicht zu , da Berechnungen zeigen, dass die vorgeschlagene Gewichtung überhaupt keine unvoreingenommene Schätzung ergibt (außer wenn alle Gewichte gleich ). Die eigentliche Schwierigkeit dabei - was der Fehler der Frage ist, nicht die Antwort - ist, dass nicht klar ist, was diese "gewichtete Standardabweichung" zu schätzen versucht. Ohne einen bestimmten Schätzwert gibt es keine Rechtfertigung für die Einführung eines Faktors zur "Verringerung der Verzerrung" (oder aus einem anderen Grund). 1(M1)/M
Whuber
1
@Mikhail Du hast Recht, dass "ungewöhnlich" und "richtig" wenig miteinander zu tun haben. Ungewöhnliche Ergebnisse erfordern jedoch implizit etwas mehr Rechtfertigung, da ungewöhnliche Ergebnisse ein Indikator dafür sind, dass möglicherweise ein Fehler gemacht wurde. Ihr Argument ist ungültig: Obwohl sich die Formel für einen unverzerrten Schätzer auf eins reduziert, wenn alle Gewichte gleich sind, bedeutet dies nicht, dass der Schätzer unverzerrt bleibt, wenn ungleiche Gewichte verwendet werden. Ich behaupte nicht, dass Ihre Schlussfolgerung falsch ist, aber nur, dass bisher keine stichhaltige Begründung vorliegt.
whuber
18

Die Formeln sind an verschiedenen Orten verfügbar, einschließlich Wikipedia .

Der Schlüssel ist zu bemerken, dass es darauf ankommt, was die Gewichte bedeuten . Insbesondere erhalten Sie unterschiedliche Antworten, wenn es sich bei den Gewichten um Häufigkeiten handelt (dh wenn Sie nur versuchen, eine Summierung Ihrer gesamten Summe zu vermeiden), wenn die Gewichte tatsächlich die Varianz jeder Messung sind oder wenn es sich nur um externe Werte handelt auf Ihre Daten auferlegen.

In Ihrem Fall sieht es oberflächlich aus, als wären die Gewichte Frequenzen, aber nicht . Sie generieren Ihre Daten aus Frequenzen, aber es ist nicht einfach, 45 Datensätze zu 3 und 15 Datensätze zu 4 in Ihrem Datensatz zu haben. Stattdessen müssen Sie die letzte Methode verwenden. (Eigentlich ist das alles Quatsch - Sie müssen wirklich ein ausgefeiltes Modell des Prozesses verwenden, der diese Zahlen erzeugt! Sie haben anscheinend nichts , das normalverteilte Zahlen ausspuckt, und charakterisieren das System daher mit der Standardabweichung ist nicht das Richtige.)

In jedem Fall lautet die Formel für die Varianz (aus der Sie die Standardabweichung auf normale Weise berechnen) mit den Gewichten "Zuverlässigkeit"

wi(xix)2wiwi2wi

Dabei ist der gewichtete Mittelwert.x=wixi/wi

Sie haben keine Schätzung für die Gewichte, von denen ich annehme, dass sie proportional zur Zuverlässigkeit sind. Wenn Sie Prozentsätze so nehmen, wie Sie es möchten, wird die Analyse schwierig, auch wenn sie durch einen Bernoulli-Prozess generiert werden. Wenn Sie eine Punktzahl von 20 und 0 erhalten, haben Sie einen unendlichen Prozentsatz. Die Gewichtung durch die Umkehrung des SEM ist eine übliche und manchmal optimale Sache. Sie sollten vielleicht eine Bayes'sche Schätzung oder ein Wilson-Bewertungsintervall verwenden .

Rex Kerr
quelle
2
+1. Die Diskussion der verschiedenen Bedeutungen von Gewichten war das, wonach ich die ganze Zeit in diesem Thread gesucht habe. Es ist ein wichtiger Beitrag zu allen Fragen dieser Site zur gewichteten Statistik. (Ich bin ein wenig besorgt über die in Klammern gesetzten Bemerkungen zu Normalverteilungen und Standardabweichungen, da diese fälschlicherweise darauf hindeuten, dass SDs außerhalb eines auf Normalität basierenden Modells keine Verwendung haben.)
whuber
@whuber - Nun, zentraler Grenzsatz natürlich auf die Rettung! Aber für das, was das OP getan hat, scheint der Versuch, diese Menge von Zahlen mit einem Mittelwert und einer Standardabweichung zu charakterisieren, überaus nicht ratsam. Und im Allgemeinen führt die Standardabweichung bei vielen Anwendungen zu einem falschen Gefühl des Verstehens. Wenn zum Beispiel die Verteilung alles andere als normal ist (oder eine gute Annäherung daran), erhalten Sie eine schlechte Vorstellung von der Form der Schwänze, wenn es genau die Schwänze sind, die Sie in der Statistik wahrscheinlich am meisten interessieren testen.
Rex Kerr
@RexKerr Wir können kaum die Standardabweichung beschuldigen, wenn Menschen unverdiente Interpretationen darauf setzen. Gehen wir jedoch von der Normalität weg und betrachten wir die viel breitere Klasse kontinuierlicher, symmetrischer unimodaler Verteilungen mit endlicher Varianz (zum Beispiel). Dann liegen zwischen 89 und 100 Prozent der Verteilung innerhalb von zwei Standardabweichungen. Das ist oft recht nützlich zu wissen (und 95% liegen so ziemlich in der Mitte, so dass es nie mehr als etwa 7% ausmacht); Bei vielen gängigen Distributionen ändert sich der Aspekt der fallenden Symmetrie nicht wesentlich (z. B. das Exponential betrachten) .... ctd
Glen_b - Monica
ctd ... - oder wenn wir eine dieser Annahmen nicht, es gibt immer die gewöhnlichen Chebyshev Grenzen , die über den Schwanz zumindest sagen , etwas zu tun und die Standardabweichung ..
Glen_b -Reinstate Monica
1
@ Gabriel - Ja, tut mir leid, ich war schlampig. (Ich glaube, die Leute können mit einem Blick erkennen, welche welche ist.) Ich habe meine Beschreibung korrigiert.
Rex Kerr
5
=SQRT(SUM(G7:G16*(H7:H16-(SUMPRODUCT(G7:G16,H7:H16)/SUM(G7:G16)))^2)/
     ((COUNTIFS(G7:G16,"<>0")-1)/COUNTIFS(G7:G16,"<>0")*SUM(G7:G16)))

Spalte Gsind Gewichte, Spalte Hsind Werte

user35936
quelle
Die Verwendung von Strg + Umschalt + Eingabetaste war für mich ein Problem, aber dies scheint anders zu funktionieren.
Philipkd
1

Wenn wir Gewichte wie Wahrscheinlichkeiten behandeln, bauen wir sie wie folgt auf: wobei - Datenvolumen.

pi=viivi,
vi

Als nächstes ist das gewichtete Mittel offensichtlich und die Varianz:

μ^=ipixi,
σ^2=ipi(xiμ^)2
Aksakal
quelle
0
Option Explicit

Function wsdv(vals As Range, wates As Range)
Dim i, xV, xW, y As Integer
Dim wi, xi, WgtAvg, N
Dim sumProd, SUMwi

    sumProd = 0
    SUMwi = 0
    N = vals.Count  ' number of values to determine W Standard Deviation
    xV = vals.Column  ' Column number of first value element
    xW = wates.Column  ' Column number of first weight element
    y = vals.Row - 1  ' Row number of the values and weights

    WgtAvg = WorksheetFunction.SumProduct(vals, wates) / WorksheetFunction.Sum(wates)

    For i = 1 To N  ' step through the elements, calculating the sum of values and the sumproduct
        wi = ActiveSheet.Cells(i + y, xW).Value  ' (i+y, xW) is the cell containing the weight element
        SUMwi = SUMwi + wi
        xi = ActiveSheet.Cells(i + y, xV).Value  ' (i+y, xV) is the cell containing the value element
        sumProd = sumProd + wi * (xi - WgtAvg) ^ 2
    Next i

    wsdv = (sumProd / SUMwi * N / (N - 1)) ^ (1 / 2)  ' output of weighted standard deviation

End Function
user71015
quelle
2
Willkommen auf der Website, @ uswer71015. Dies scheint nur Code zu sein. Können Sie einen Text / eine Erklärung hinzufügen, wie der Code funktioniert und wie er die Frage beantwortet?
gung - Wiedereinsetzung von Monica