Ich habe also einen Datensatz mit folgenden Prozentsätzen:
100 / 10000 = 1% (0.01)
2 / 5 = 40% (0.4)
4 / 3 = 133% (1.3)
1000 / 2000 = 50% (0.5)
Ich möchte die Standardabweichung der Prozentsätze ermitteln, aber nach dem Datenvolumen gewichtet. dh der erste und der letzte Datenpunkt sollten die Berechnung dominieren.
Wie mache ich das? Und gibt es eine einfache Möglichkeit, dies in Excel zu tun?
Antworten:
Die Formel für die gewichtete Standardabweichung lautet:
woher
Denken Sie daran, dass die Formel für den gewichteten Mittelwert lautet:
Verwenden Sie die entsprechenden Gewichte, um das gewünschte Ergebnis zu erzielen. In Ihrem Fall würde ich vorschlagen, .Number of cases in segmentTotal number of cases
Dazu müssen Sie in Excel zuerst den gewichteten Mittelwert berechnen. Berechnen Sie dann die in einer separaten Spalte. Der Rest muss sehr einfach sein.(xi−x¯∗)2
quelle
Die Formeln sind an verschiedenen Orten verfügbar, einschließlich Wikipedia .
Der Schlüssel ist zu bemerken, dass es darauf ankommt, was die Gewichte bedeuten . Insbesondere erhalten Sie unterschiedliche Antworten, wenn es sich bei den Gewichten um Häufigkeiten handelt (dh wenn Sie nur versuchen, eine Summierung Ihrer gesamten Summe zu vermeiden), wenn die Gewichte tatsächlich die Varianz jeder Messung sind oder wenn es sich nur um externe Werte handelt auf Ihre Daten auferlegen.
In Ihrem Fall sieht es oberflächlich aus, als wären die Gewichte Frequenzen, aber nicht . Sie generieren Ihre Daten aus Frequenzen, aber es ist nicht einfach, 45 Datensätze zu 3 und 15 Datensätze zu 4 in Ihrem Datensatz zu haben. Stattdessen müssen Sie die letzte Methode verwenden. (Eigentlich ist das alles Quatsch - Sie müssen wirklich ein ausgefeiltes Modell des Prozesses verwenden, der diese Zahlen erzeugt! Sie haben anscheinend nichts , das normalverteilte Zahlen ausspuckt, und charakterisieren das System daher mit der Standardabweichung ist nicht das Richtige.)
In jedem Fall lautet die Formel für die Varianz (aus der Sie die Standardabweichung auf normale Weise berechnen) mit den Gewichten "Zuverlässigkeit"
Dabei ist der gewichtete Mittelwert.x∗=∑wixi/∑wi
Sie haben keine Schätzung für die Gewichte, von denen ich annehme, dass sie proportional zur Zuverlässigkeit sind. Wenn Sie Prozentsätze so nehmen, wie Sie es möchten, wird die Analyse schwierig, auch wenn sie durch einen Bernoulli-Prozess generiert werden. Wenn Sie eine Punktzahl von 20 und 0 erhalten, haben Sie einen unendlichen Prozentsatz. Die Gewichtung durch die Umkehrung des SEM ist eine übliche und manchmal optimale Sache. Sie sollten vielleicht eine Bayes'sche Schätzung oder ein Wilson-Bewertungsintervall verwenden .
quelle
Spalte
G
sind Gewichte, SpalteH
sind Wertequelle
Wenn wir Gewichte wie Wahrscheinlichkeiten behandeln, bauen wir sie wie folgt auf: wobei - Datenvolumen.
Als nächstes ist das gewichtete Mittel offensichtlich und die Varianz:
quelle
quelle