Ich habe mehrere Artikel und Auszüge aus Büchern gelesen, in denen erklärt wird, wie eine gute Anzahl von Intervallen (Bins) für das Histogramm eines Datensatzes ausgewählt wird, aber ich frage mich, ob es eine feste maximale Anzahl von Intervallen gibt, die auf der Anzahl der Punkte in basiert ein Datensatz oder ein anderes Kriterium.
Hintergrund: Der Grund, den ich frage, ist, dass ich versuche, Software basierend auf einem Verfahren aus einem Forschungsbericht zu schreiben. Ein Schritt des Verfahrens besteht darin, mehrere Histogramme aus einem Datensatz zu erstellen und dann die optimale Auflösung basierend auf einer charakteristischen Funktion (definiert von den Autoren des Papiers) auszuwählen. Mein Problem ist, dass die Autoren keine Obergrenze für die Anzahl der zu testenden Intervalle angeben. (Ich muss Hunderte von Datensätzen analysieren, und jeder kann eine andere "optimale" Anzahl von Behältern haben. Außerdem ist es wichtig, dass die optimale Anzahl von Behältern ausgewählt wird, sodass das manuelle Betrachten der Ergebnisse und das Auswählen eines guten nicht möglich ist Arbeit.)
Wäre es eine gute Richtlinie, einfach die maximale Anzahl von Intervallen auf die Anzahl der Punkte im Datensatz festzulegen, oder gibt es ein anderes Kriterium, das normalerweise in der Statistik verwendet wird?
quelle
Antworten:
Es gibt wirklich keine feste Obergrenze, aber in den meisten Situationen dienen feinere Behälter nur dazu, ihre Positionen genauer zu bestimmen, ohne viel mehr zu vermitteln, wenn Sie alle eindeutigen Beobachtungen in ihrem eigenen Behälter erhalten. zB vergleiche diese:
Außer unter bestimmten Umständen gibt es wahrscheinlich keinen praktischen Nutzen in der zweiten Handlung und nicht so viel in der ersten. Wenn Ihre Daten kontinuierlich sind, liegt dies wahrscheinlich weit über einer nützlichen Anzahl von Fächern.
In den meisten Situationen scheint dies zumindest eine praktische Obergrenze zu sein - jede einzelne Beobachtung in einem eigenen Behälter.
(Wenn es ist Nutzen in mehr Behältern als ein pro einmaliger Beobachtung, sollten Sie vielleicht eine rugplot oder einen Jitterbasierten Linienschreiber tun , diese Art von Informationen zu erhalten) - etwas wie das, was am Rande dieser Histogramme getan hat:
(Diese Histogramme werden gegen Ende dieser Antwort entnommen. )
quelle
Es gibt gute Gründe, eine große Anzahl von Behältern zu haben, z. B. Behälter für jeden möglichen Wert, wenn der Verdacht besteht, dass das Detail eines Histogramms kein Rauschen, sondern eine interessante oder wichtige Feinstruktur ist.
Dies hängt nicht direkt mit der genauen Motivation für diese Frage zusammen, da eine automatisierte Regel für eine optimale Anzahl von Behältern gewünscht wird, sondern ist für die gesamte Frage relevant.
Lassen Sie uns sofort zu Beispielen springen. In der Demografie ist eine Rundung des gemeldeten Alters üblich, insbesondere aber nicht nur in Ländern mit eingeschränkter Alphabetisierung. Was passieren kann, ist, dass viele Menschen ihr genaues Geburtsdatum nicht kennen oder dass es soziale oder persönliche Gründe gibt, ihr Alter zu unterschätzen oder zu übertreiben. Die Militärgeschichte ist voll von Beispielen von Menschen, die Lügen über ihr Alter erzählen, um zu vermeiden oder Dienst bei Streitkräften zu suchen. In der Tat werden viele Leser jemanden kennen, der sehr schüchtern oder auf andere Weise nicht ganz ehrlich über sein Alter ist, auch wenn sie nicht bei einer Volkszählung darüber lügen. Das Nettoergebnis variiert, aber wie bereits angedeutet, ist es normalerweise eine Rundung, z. B. sind Alter, die mit 0 und 5 enden, viel häufiger als Alter, das ein Jahr weniger oder mehr beträgt.
Ein ähnliches Phänomen der Ziffernpräferenz tritt auch bei ganz unterschiedlichen Problemen auf. Bei einigen altmodischen Messmethoden muss die letzte Ziffer einer gemeldeten Messung durch Interpolation zwischen abgestuften Markierungen mit dem Auge gemessen werden. Dies war in der Meteorologie mit Quecksilberthermometern ein langer Standard. Es wurde festgestellt, dass einige gemeldete Ziffern insgesamt häufiger vorkommen als andere, und dass viele von uns einzeln Unterschriften haben, ein persönliches Muster, bei dem einige Ziffern gegenüber anderen bevorzugt werden. Die übliche Referenzverteilung ist hier die Gleichmäßigkeit, dh solange der Bereich möglicher Messungen um ein Vielfaches größer als die "Maßeinheit" ist, wird erwartet, dass die endgültigen Ziffern mit gleicher Häufigkeit auftreten. Also , wenn gemeldete Schatten Temperaturen könnte eine Reihe von (sagen wir) decken 50 ⋯∘ C Die zehn letzten Ziffern, Brüche eines Grades .0, .1, , .8, .9 sollten jeweils mit einer Wahrscheinlichkeit von 0.1 auftreten. Die Qualität dieser Annäherung sollte auch für einen begrenzten Bereich gut sein.⋯
Im Übrigen ist die Betrachtung der letzten Ziffern der gemeldeten Daten eine einfache und gute Methode zur Überprüfung auf fabrizierte Daten, die viel einfacher zu verstehen und weniger problematisch ist als die derzeit modische Prüfung der ersten Ziffern unter Berufung auf das Benford-Gesetz.
Das Ergebnis für Histogramme sollte jetzt klar sein. Eine spitzenartige Präsentation kann dazu dienen, diese Art von Feinstruktur zu zeigen oder allgemeiner zu überprüfen. Wenn nichts Interessantes erkennbar ist, kann der Graph natürlich von geringem Nutzen sein.
Ein Beispiel zeigt die Häufung von Altersangaben aus der Volkszählung von Ghana für 1960. Siehe http://www.stata.com/manuals13/rspikeplot.pdf
Es gab eine gute Überprüfung der Verteilungen der letzten Ziffern in
Preece, DA 1981. Verteilung der letzten Ziffern in Daten. The Statistician 30: 31-60.
Ein Hinweis zur Terminologie: Einige Leute schreiben über die eindeutigen Werte einer Variablen, wenn sie besser über die unterschiedlichen Werte einer Variablen sprechen würden. Wörterbücher und Gebrauchsanweisungen weisen weiterhin darauf hin, dass "einzigartig" bedeutet, nur einmal vorzukommen. Somit könnte das unterschiedliche gemeldete Alter einer Bevölkerung in Jahren 0, 1, 2 usw. sein, aber die große Mehrheit dieser Altersgruppen ist nicht auf eine Person beschränkt.
quelle
Es gibt kein festes Maximum für die Anzahl der Fächer in einem Histogramm. Wenn die geplottete Variable kontinuierlich ist, kann für eine unendliche Anzahl von Kategorien argumentiert werden (und das Histogramm wird im Grunde genommen zu einem Teppichplot).
Die Anzahl der Punkte im Datensatz ist keine angemessene Obergrenze. Stellen Sie sich einen Datensatz vor, der zwei Werte enthält: 1 und 1000. Es wäre nicht angemessen, zwei Fächer zu haben.
Zwei praktische Methoden zum Bestimmen einer Obergrenze sind: a) Bestimmen der zugrunde liegenden Rundung der Daten. Wenn die Daten beispielsweise Ganzzahlen sind, ist es sinnvoll, Bins mit Ganzzahlbreite zu haben. b) Betrachten der maximalen sichtbaren Auflösung (z. B. Anzahl der Pixel in der horizontalen Dimension, die zum Zeichnen verwendet werden können).
quelle