Was genau bedeutet es, Daten zu bündeln?

16

Ich dachte, dass "Daten bündeln" einfach das Kombinieren von Daten bedeutet, die zuvor in Kategorien unterteilt waren ... im Wesentlichen, die Kategorien zu ignorieren und den Datensatz zu einem riesigen "Datenpool" zu machen. Ich denke, das ist mehr eine Frage der Terminologie als der Anwendung von Statistiken.

Zum Beispiel: Ich möchte zwei Websites vergleichen und habe innerhalb jeder Website zwei Jahrestypen (gut und schlecht). Wenn ich die beiden Sites "insgesamt" vergleichen möchte (dh die Jahrestypen ignorieren), ist es dann richtig zu sagen, dass ich die Daten auf jeder Site bündele? Da mehrere Datenjahre den guten und den schlechten Jahrestyp umfassen, ist es auch richtig zu sagen, dass ich die Daten auf Jahre verteile, um den Datensatz für "gutes Jahr" und "schlechtes Jahr" für jeden Standort zu erhalten? Danke für Ihre Hilfe! Mog

Mog
quelle

Antworten:

13

Ja, Ihre Beispiele sind richtig.

Das Oxford English Dictionary definiert Pool als:

Pool, v.

(puːl)

1.1 trans. In eine Stammaktie oder einen Fonds zu werfen, die / der nach Vereinbarung vertrieben wird; (Kapital oder Interessen) zum gemeinsamen Nutzen verbinden; spez. von konkurrierenden Eisenbahnunternehmen usw .: Teilen oder Teilen (Verkehr oder Einnahmen).

Ein anderes Beispiel wäre:

Sie messen den Blutspiegel von Substanz X bei Männern und Frauen. Sie sehen keine statistischen Unterschiede zwischen den beiden Gruppen, also bündeln Sie die Daten und ignorieren dabei das Geschlecht der Versuchsperson.

Ob dies statistisch richtig ist, hängt stark vom Einzelfall ab.

nico
quelle
12

Pooling kann sich auf das Kombinieren von Daten beziehen, es kann sich aber auch auf das Kombinieren von Informationen und nicht auf die Rohdaten beziehen. Eine der häufigsten Verwendungen von Pooling ist die Schätzung einer Varianz. Wenn wir glauben, dass 2 Populationen die gleiche Varianz, aber nicht notwendigerweise den gleichen Mittelwert haben, können wir die 2 Varianzschätzungen aus den Stichproben der 2 Gruppen berechnen und sie dann zusammenfassen (einen gewichteten Durchschnitt bilden), um eine einzige Schätzung von zu erhalten die gemeinsame Varianz. Wir berechnen keine einzige Schätzung der Varianz aus den kombinierten Daten, denn wenn die Mittelwerte nicht gleich sind, erhöht dies die Varianzschätzung.

Greg Snow
quelle
Vielen Dank @ Greg. Um zu verdeutlichen (weil ich auch Varianzen aus der Literatur zu kombinieren versuche): Um eine "durchschnittliche" Varianz für mehrere Populationen zu erhalten, kann ich ein gewichtetes Mittel der berechneten Varianzen verwenden? Wie würde ich diese Abweichungen gewichten? Ist nicht jede Bevölkerung = 1?
Mog
Wenn die Stichprobengrößen gleich sind, funktioniert der einfache Durchschnitt in der Regel. Im Allgemeinen geben wir jedem Datenpunkt das gleiche Gewicht. Die Standardformel lautet, jede Varianz mit den Freiheitsgraden (oder der Zahl im Nenner für than group, n-1) zu multiplizieren, dann alle Teile zu summieren und dann durch die Summe von zu dividieren die Freiheitsgrade (alle n_i-1).
Greg Snow