Verwendung von Mittelwert (X / Y) vs. Mittelwert (X) / Mittelwert (Y)

7

Ich habe eine Tabelle mit zwei Spalten X und Y. Jede Zeile repräsentiert eine aggregierte Statistik für eine Instanz. Ich führe eine neue Spalte als Z = X / Y ein, eine weitere wichtige Information zur Instanz. Jetzt möchte ich die Gesamtstatistik der Instanzen (dh Mittelwert) präsentieren.

Hier habe ich ein Problem: Welches sollte ich unter Mittelwert (X / Y) und Mittelwert (X) / Mittelwert (Y) verwenden, um den Mittelwert von Z darzustellen? Es könnte einfach Mittelwert (X / Y) sein, nur weil Z = X / Y ist.

Ich habe jedoch zwei Bedenken:

  • Mittelwert (Y) * Mittelwert (Z)! = Mittelwert (X); es macht es den Menschen schwer, den Zahlen zu vertrauen.
  • Die Unterschiede zwischen Mittelwert (X / Y) und Mittelwert (X) / Mittelwert (Y) sind signifikant. Sagen die Unterschiede selbst statistisch etwas Bedeutendes aus?

// Ich aktualisiere meinen Fall.

Die Tabelle speichert die Benutzerdatensätze auf einem System. Benutzer können Daten darauf hochladen.

  • X: Die Anzahl der Uploads
  • Y: Das Volumen der Uploads
  • Z: Y / X; Volumen pro Upload

Was ich tun möchte, ist, ein solches System mit Workloads zu simulieren, die dem realen ähnlich sind.

Ich erstelle einfach N Instanzen von Benutzern (N darf nicht zu groß sein) mit X '= Mittelwert (X) und Z' = Mittelwert (Z).

Während der Simulation lädt jeder Benutzer Daten des Gesamtvolumens hoch: (X ') * (Z').

Wenn ich dann die Simulationsergebnisse aggregiere, erhalte ich: Mittelwert (Y ')! = Mittelwert (Y).

Syko
quelle
2
Siehe '' Ratio Estimators
@fcop Hmm, wann hilft die Verhältnisschätzung? Wann möchte ich eine Simulation mit N Instanzen (jede hat die Eigenschaften Mittelwert (X), Mittelwert (Y) und Mittelwert (Z)) basierend auf der Statistik ausführen? Kann ich das Verhältnis Estimatior anstelle von Mean (Z) verwenden?
Syko
1
Ich bin jetzt im Zug, ich werde am Abend antworten.
1
Haben Sie die Verteilung des Volumens pro Upload oder der Uploads pro Benutzer untersucht, nicht nur die Mittelwerte? Für die Simulation sollten Sie wahrscheinlich auf jeden Fall Stichproben aus den Verteilungen ziehen und nicht nur Mittelwerte verwenden.
EdM
1
Viele gute Ratschläge hier, aber ich finde oft, dass ein Mittelwert für die Zusammenfassung eines solchen Verhältnisses ungeeignet ist, selbst wenn beide Größen streng positiv sind. Das Intervall wird auf abgebildet, und das Intervall wird auf abgebildet, was ziemlich asymmetrisch ist. Die resultierende Verteilung ist oft stark verzerrt, was allein zu unangenehmen oder problematischen Mitteln führen kann. Die Abhilfe besteht oft darin, mit einem Logarithmus des Verhältnisses und / oder (äquivalent) geometrischen Mitteln zu arbeiten. X<Y0<(X/Y)<1Y>X>(X/Y)>1
Nick Cox

Antworten:

9

Sie sollten den Mittelwert (X / Y) angeben, wenn X / Y ein nützliches Maß ist und ein Mittelwert eine nützliche Möglichkeit ist, ihn zusammenzufassen. Durch Jensens Ungleichung wissen wir, dass das Verhältnis des Mittelwerts nur unter bestimmten Umständen gleich dem Mittelwert des Verhältnisses ist.

AdamO
quelle
Danke, ich denke deine Antwort ist richtig. Wie ich jedoch als eines meiner Anliegen erwähnt habe, können Menschen (die sich nicht darum kümmern, worum es bei der Ungleichung von Jensen geht) dazu neigen, den Zahlen nicht zu glauben. Weil Mittelwert (Y) * Mittelwert (Z)! = Mittelwert (X), was der Intuition widerspricht. Was wäre die beste Erklärung dafür?
Syko
2
@syko das ist ein erkenntnistheoretisches Problem. Stellen Sie sicher, dass Sie sorgfältig erklären, dass es sich um unterschiedliche Mengen handelt. Ich glaube nicht, dass Ihr Beispiel der Intuition widerspricht. Nehmen Sie Y = -X, X = -1 oder 1 mit gleicher Wahrscheinlichkeit.
AdamO
@AdamO Ich denke, Sie haben einen Fehler in Ihrer Berechnung; in diesem Fall da (mit Wahrscheinlichkeit 1) . E(1/Y)>11/Y>1
Richard Rast
@RM Was meinst du mit "Limit von zwei unabhängigen Zufallsvariablen"?
AdamO
@AdamO Was ich meinte war, dass Sie zwei unabhängige Variablen haben und eine unendliche Anzahl von Paaren aus Stichproben der beiden konstruieren. - Mir ist jetzt klar, dass ich mich in Bezug auf meinen Kommentar geirrt habe, indem ich die Komplexität des Gegenseitigen vernachlässigt habe. Während Mittelwert (X) * Mittelwert (1 / Y) = Mittelwert (X / Y) für vollständig unabhängige Variablen, können Sie nicht sagen, dass Mittelwert (X) / Mittelwert (Y) = Mittelwert (X / Y), es sei denn, Sie haben eine seltene Verteilung von Y, so dass Mittelwert (1 / Y) = 1 / Mittelwert (Y). Ihre Intuition geht also davon aus, dass 1. die beiden Variablen unabhängig (unkorreliert) und 2. Mittelwert (1 / Y) = 1 / Mittelwert (Y) sind, was im Allgemeinen nicht korrekt ist.
RM
4

Z=Y/X kann für einzelne Benutzer als individuelles durchschnittliches Volumen pro Upload von Bedeutung sein, aber sieht insgesamt nicht aussagekräftig aus, da einige Benutzer das System häufiger als andere verwenden. Mean(Y/X)

Wenn Sie einen gewichteten Mittelwert von , um dies zu berücksichtigen, wären die natürlichen Gewichte die Anzahl der Uploads und der resultierende gewichtete Mittelwert wäre der auch das durchschnittliche Gesamtvolumen pro Upload im gesamten System darstellt.Z=Y/XX

Weighted Mean(Z)=Sum(X×Y/X)/Sum(X)=Sum(Y)/Sum(X)=Mean(Y)/Mean(X)

Ihre Bedenken sind berechtigt: Es wäre wahrscheinlich besser, die letztere Option zu verwenden.

Henry
quelle