Ich habe eine Tabelle mit zwei Spalten X und Y. Jede Zeile repräsentiert eine aggregierte Statistik für eine Instanz. Ich führe eine neue Spalte als Z = X / Y ein, eine weitere wichtige Information zur Instanz. Jetzt möchte ich die Gesamtstatistik der Instanzen (dh Mittelwert) präsentieren.
Hier habe ich ein Problem: Welches sollte ich unter Mittelwert (X / Y) und Mittelwert (X) / Mittelwert (Y) verwenden, um den Mittelwert von Z darzustellen? Es könnte einfach Mittelwert (X / Y) sein, nur weil Z = X / Y ist.
Ich habe jedoch zwei Bedenken:
- Mittelwert (Y) * Mittelwert (Z)! = Mittelwert (X); es macht es den Menschen schwer, den Zahlen zu vertrauen.
- Die Unterschiede zwischen Mittelwert (X / Y) und Mittelwert (X) / Mittelwert (Y) sind signifikant. Sagen die Unterschiede selbst statistisch etwas Bedeutendes aus?
// Ich aktualisiere meinen Fall.
Die Tabelle speichert die Benutzerdatensätze auf einem System. Benutzer können Daten darauf hochladen.
- X: Die Anzahl der Uploads
- Y: Das Volumen der Uploads
- Z: Y / X; Volumen pro Upload
Was ich tun möchte, ist, ein solches System mit Workloads zu simulieren, die dem realen ähnlich sind.
Ich erstelle einfach N Instanzen von Benutzern (N darf nicht zu groß sein) mit X '= Mittelwert (X) und Z' = Mittelwert (Z).
Während der Simulation lädt jeder Benutzer Daten des Gesamtvolumens hoch: (X ') * (Z').
Wenn ich dann die Simulationsergebnisse aggregiere, erhalte ich: Mittelwert (Y ')! = Mittelwert (Y).
quelle
Antworten:
Sie sollten den Mittelwert (X / Y) angeben, wenn X / Y ein nützliches Maß ist und ein Mittelwert eine nützliche Möglichkeit ist, ihn zusammenzufassen. Durch Jensens Ungleichung wissen wir, dass das Verhältnis des Mittelwerts nur unter bestimmten Umständen gleich dem Mittelwert des Verhältnisses ist.
quelle
Wenn Sie einen gewichteten Mittelwert von , um dies zu berücksichtigen, wären die natürlichen Gewichte die Anzahl der Uploads und der resultierende gewichtete Mittelwert wäre der auch das durchschnittliche Gesamtvolumen pro Upload im gesamten System darstellt.Z=Y/X X
Ihre Bedenken sind berechtigt: Es wäre wahrscheinlich besser, die letztere Option zu verwenden.
quelle