Es gibt viele Regeln für die Auswahl einer optimalen Behälterbreite in einem 1D-Histogramm (siehe zum Beispiel ).
Ich suche nach einer Regel, die die Auswahl optimaler Breiten gleicher Bin auf zweidimensionale Histogramme anwendet .
Gibt es eine solche Regel? Vielleicht kann eine der bekannten Regeln für 1D-Histogramme leicht angepasst werden. Wenn ja, können Sie einige minimale Details dazu angeben?
optimization
histogram
Gabriel
quelle
quelle
Antworten:
Mein Rat wäre im Allgemeinen, dass es noch kritischer als in 1-D ist, wenn möglich zu glätten, dh so etwas wie eine Kernel-Dichteschätzung (oder eine andere solche Methode wie die Log-Spline-Schätzung) durchzuführen, die tendenziell wesentlich effizienter ist als die Verwendung Histogramme. Wie Whuber betont, ist es durchaus möglich, sich durch das Auftreten eines Histogramms täuschen zu lassen, insbesondere bei wenigen Behältern und kleinen bis mittleren Stichprobengrößen.
Wenn Sie beispielsweise versuchen, den mittleren integrierten quadratischen Fehler (MISE) zu optimieren, gelten Regeln für höhere Dimensionen (die Anzahl der Bins hängt von der Anzahl der Beobachtungen, der Varianz, der Dimension und der "Form" ab). sowohl für die Schätzung der Kerneldichte als auch für Histogramme.
[In der Tat sind viele der Probleme für das eine auch Probleme für das andere, daher sind einige der Informationen in diesem Wikipedia-Artikel relevant.]
Diese Abhängigkeit von der Form scheint zu implizieren, dass Sie für eine optimale Auswahl bereits wissen müssen, was Sie zeichnen. Wenn Sie jedoch bereit sind, einige vernünftige Annahmen zu treffen, können Sie diese verwenden (so könnten beispielsweise einige Leute "ungefähr Gauß" sagen), oder Sie können alternativ eine Form eines "Plug-in" -Schätzers des entsprechenden verwenden funktional.
Die Analyse in höheren Dimensionen ist etwas komplizierter (ähnlich wie bei der Schätzung der Kerneldichte von 1-D zu r-Dimensionen), aber es gibt einen Begriff in der Dimension, der in die Potenz von n kommt.
Wenn die Verteilung schief oder stark schwanzförmig oder multimodal ist, ergeben sich im Allgemeinen viel kleinere Binbreiten. Folglich sind die normalen Ergebnisse oft bestenfalls Obergrenzen für die Bindung.
Natürlich ist es durchaus möglich, dass Sie nicht an einem mittleren integrierten quadratischen Fehler interessiert sind, sondern an einem anderen Kriterium.
[1]: Wand, MP (1997),
"Datenbasierte Auswahl der Histogrammfachbreite",
American Statistician 51 , 59-64
[2]: Scott, DW (1992),
Multivariate Dichteschätzung: Theorie, Praxis und Visualisierung ,
John Wiley & Sons, Inc., Hoboken, NJ, USA.
quelle
Eine vierte Option wäre jedoch, zu versuchen, Ihre Stichprobe als nativ zweidimensional zu behandeln, die Norm für jeden der Stichprobenpunkte zu berechnen und dann die Freedman-Diaconis-Regel für die Normen der Stichprobe auszuführen. dh:
OK, hier ist ein Code und eine Darstellung der von mir beschriebenen Prozeduren:
Wie andere angemerkt haben, ist eine Glättung für diesen Fall mit ziemlicher Sicherheit angemessener (dh eine KDE zu erhalten). Ich hoffe, dies gibt Ihnen eine Vorstellung davon, was ich in meinem Kommentar in Bezug auf die direkte Verallgemeinerung (mit allen damit verbundenen Problemen) von 1-D-Beispielregeln auf 2-D-Beispielregeln beschrieben habe. Insbesondere setzen die meisten Verfahren einen gewissen Grad an "Normalität" in der Probe voraus. Wenn Sie eine Probe haben, die eindeutig nicht normal verteilt ist (z. B. leptokurtotisch), würde dieses Verfahren (auch in 1-D) ziemlich schlimm fehlschlagen.
quelle