Anzahl signifikanter Zahlen, die in eine Tabelle eingetragen werden sollen?

Gibt es eine begründete Regel für die Anzahl der zu veröffentlichenden signifikanten Figuren?

Hier einige konkrete Beispiele / Fragen:

Gibt es eine Möglichkeit, die Anzahl der signifikanten Zahlen mit dem Variationskoeffizienten in Beziehung zu setzen? Wenn die Schätzung beispielsweise 12,3 beträgt und der CV 50% beträgt, bedeutet dies, dass sich die durch '.3' dargestellte Information Null nähert?
Wenn ein Konfidenzintervall einen Bereich von Größenordnungen aufweist, sollte die Anzahl der signifikanten Stellen immer noch gleich sein, z.

12,3 (1,2, 123,4) vs 12 (1,2, 120)
Sollte die Anzahl der signifikanten Stellen in einer Fehlerschätzung gleich oder geringer sein als die Anzahl der signifikanten Stellen in einem Mittelwert?

tables David LeBauer
quelle

Wenn du kannst, benutze keine Tabelle :) Eine Grafik ist, IMO, fast immer leichter zu lesen als eine Tabelle (die offensichtliche Ausnahme ist, wenn du nicht viele Zahlen hast). Zeitschriften und ihre Rezensenten sind sich leider nicht immer einig ...

JMS

@JMS Guter Punkt, aber Tabellen sind nützlich, um detaillierte Merkmale statistischer Einheiten (die durch einen Faktor von Interesse gegliedert sind, z. B. klinische Diagnose oder was auch immer) mit Variablen verschiedener Typen (kontinuierlich, nominal und ordinal) und anderen abgeleiteten Ergebnissen zusammenzufassen von der statistischen Modellierung an sich (Verwirrungsmatrix, Regressionskoeffizient usw.), die nicht in Zahlen passt (oder nicht immer, wenn Sie sich Gelmans Ansatz für die Darstellung von Regressionskoeffizienten als Punktdiagramme vorstellen). Wir brauchen beides. Die Frage ist, wann wir wirklich eine Figur anstelle einer Tabelle brauchen, IMO.

chl

@ Chi Fair. Ich habe fast immer gesagt :). Dinge wie große n-Wege-Tabellen können nicht (vollständig) grafisch reproduziert werden. Es kommt auf das Forum an, würde ich sagen. Tabellen haben den Vorteil, dass sie vollständig, sicher, aber nicht Ihre Leser tatsächlich absorbieren alle , dass zusätzliche Informationen? Wenn es zu viele Parameter gibt, um in eine Grafik zu passen, würde ich behaupten, dass eine Tabelle oft zumindest schwer zu lesen ist. Ich denke jedoch, dass vollständige Ergebnisse zugänglich sein sollten (online, Anhang usw.), wenn nichts anderes als Reproduzierbarkeit. In diesem Fall hätte ich aber auch gerne Daten & Code! Wanderte OT, sorry ..

JMS

Ich denke auch, dass Regressionskoeffizienten und Konfusionsmatrizen (Korrelation, Kovarianz, ...) normalerweise besser für eine grafische Darstellung geeignet sind, Punktdiagramme oder ähnliches für die erstere und Heatmaps oder Diagramme für die letztere.

JMS

@JMS Ich stimme Ihrem Punkt zu, aber in diesem Fall gibt es ein Zahlenlimit, in einigen anderen Fällen fallen Gebühren an. Wenn die Leser in diesem Fall einen Blick über den Tisch werfen und sich auf die dargestellten Zahlen konzentrieren, verschwenden sie keine Zeit damit, den Sinn einer esoterischen Figur herauszufinden. Aber ich unterstütze die Reproduzierbarkeit voll und ganz, und wenn ich dabei bin, könnte ich dem beigefügten Code eine Visualisierung der Tabelle hinzufügen.

David LeBauer

Antworten:

Ich bezweifle, dass es eine universelle Regel gibt, deshalb werde ich mir keine ausdenken. Ich kann diese Gedanken und die Gründe dahinter teilen:

Wenn die Zusammenfassungen die Daten selbst widerspiegeln (max, min, Auftragsstatistik usw.), verwenden Sie die gleiche Anzahl von signifikanten Zahlen , die für die erstmalige Aufzeichnung der Daten verwendet wurden. Dies bietet eine konsistente Darstellung im gesamten Dokument hinsichtlich der Genauigkeit der Daten.
$n$ $\sqrt{n}$ $3 \le n \le 30$ $30 \lt n \le 300$

-Beachten , dass der CV nicht nicht alle notwendigen Informationen in dieser Hinsicht bieten.

-Einige Schätzungen können mit großer Präzision erhalten werden. Sie müssen nicht gerundet sein, um zu etwas anderem zu passen. Zum Beispiel könnte der Mittelwert von 1.000.000 ganzen Zahlen 10.977 mit einem Standardfehler von 0.00301 sein. Meine Entscheidung, den Mittelwert auf drei Dezimalstellen (und 4 bis 5 Sig.) Zu schreiben, basierte auf der Größenordnung der SE, was darauf hinweist, dass die letzte Ziffer teilweise zuverlässig ist. Die Entscheidung, die SE auf drei Sig Feigen (fünf Dezimalstellen) zu schreiben, ist willkürlicher: zwei Sig Feigen würden funktionieren; man würde wahrscheinlich nicht; vier Sig Feigen würden auch funktionieren und mit den 4-5 Sig Feigen im Mittel übereinstimmen; mehr als vier Sig Feigen wären übertrieben. (Man könnte den Standardfehler der SE selbst in Bezug auf den vierten Moment der Daten abschätzen und damit einen angemessenen Rundungsbetrag bestimmen, aber die meisten von uns machen sich keine solchen Sorgen ...)
Signalisieren Sie dem Leser, wenn Sie umfangreiche Rundungen durchführen . Seien Sie besonders vorsichtig, wenn der Bericht den statistischen Test selbst behandelt . Der Grund ist, dass Leute Ihre Arbeit benutzen können, um ihre eigenen Berechnungen zu überprüfen. Manchmal kann sogar ein kleiner Unterschied einen Fehler aufdecken. Sie möchten keine Probleme verursachen, weil Sie 123 auf 120 gerundet haben und jemand anderes, der die Arbeit überprüft, 123 erhält und den Verdacht hat, dass einer von Ihnen einen Fehler begangen hat.
Seien Sie konsequent . Sie können einige Leser verlieren, wenn Sie einen Wert als 123 an einer Stelle auflisten und ihn später als 120 verweisen.
Sei nicht lächerlich . (Ich vermute automatisch Inkompetenz, wenn ich auf Berichte stoße, die statistische Ergebnisse für 15 Sig Feigen liefern, wenn die Daten beispielsweise nur zwei Sig Feigen enthalten.)

whuber
quelle

Meine sehr große +1, weil es wirklich viele gute Ratschläge gibt. Ebenso möchte ich den Schülern zeigen, dass es wirklich sinnlos ist, die aus Umfragen (oder Abstimmungen) gesammelten Daten ohne Berücksichtigung der Stichprobengröße (die sich auf den Standardfehler auswirkt) als% mit vielen Dezimalstellen zusammenzufassen.

chl

Ich würde 12 (1.2, 123.4) vorschlagen. Lassen Sie die .3 weg, da sie fast bedeutungslos ist, aber viele Leute (1.2, 120) gehen davon aus, dass die letzte '0' in 120 signifikant ist.

AVB
quelle

Warum schlagen Sie vor, eine Dezimalstelle für die Statistik von Interesse wegzulassen, wenn Sie damit einverstanden sind, sie in den CIs anzuzeigen (dh, wenn sie für 12 bedeutungslos ist, warum ist sie für 123.4 sinnvoll)?

chl

@chl: Es macht nicht viel Sinn, aber es könnte irreführend sein, es wegzulassen. Wenn ich 123.4 eingebe, wird jemand wie Sie die zusätzlichen Ziffern sehen und sie einfach ignorieren, ohne dass etwas passiert. Wenn ich 120 eingebe, werden viele Leser denken, dass dies auf 3 Stellen genau ist - schlecht.

AVB

immer noch nicht klar, warum Sie 123.4 anstelle von 123 empfehlen (warum .3 aber nicht .4 im Beispiel weglassen?)

David LeBauer