Kann jemand im Klartext erklären, worin der Unterschied zwischen den Daumenregeln von Scott und Silverman für die Bandbreitenauswahl besteht? Insbesondere wenn ein besser als die anderen? Hängt es mit der zugrunde liegenden Distribution zusammen? Anzahl von Beispielen?
PS Ich beziehe mich auf den Code in SciPy .
kernel-smoothing
xrfang
quelle
quelle
Antworten:
Die Kommentare im Code scheinen die beiden im Wesentlichen identisch zu definieren (abgesehen von einem relativ kleinen Unterschied in der Konstante).
Beide sind von der Formc A n- 1 / 5 , die beide mit dem, was aussieht wie die gleichen EIN (Schätzwert der Skala), und c ist sehr nahe an 1 ( in der Nähe relativ zu der typischen Unsicherheit bei der Schätzung der optimalen Bandbreite) .
[Die binwdith schätzt , dass mehr scheint in der Regel mit Scott verbunden zu sein ist von seinem 1979 Papier [1] (3,49 s n- 1 / 3 ) - siehe zB Wikipedia - scroll down ein wenig - oder R
nclass.scott
.]Die 1,059 in dem, was der Code die "Scott-Schätzung" nennt, ist im (vorherigen) Buch von Silverman (siehe Seite 45 der Silverman-Referenz unter Ihrem Link - Scotts Ableitung davon befindet sich auf Seite 130-131 des Buches, auf das sie sich beziehen). Es stammt aus einer Schätzung der Normaltheorie.
Aus ähnlichen Gründen, die ich zuvor vorgeschlagen habe, schlägt Silverman vor, 1.059 zu reduzieren (tatsächlich verwendet er 1.06 durchgehend, nicht 1.059 - wie Scott in seinem Buch). Er wählt einen reduzierten Wert, der bei IMSE im Normalfall nicht mehr als 10% Wirkungsgrad einbüßt. Daher kommt die 0,9.
Beide Binbreiten basieren also auf der IMSE-optimalen Binbreite im Normalfall, eine direkt am Optimum, die andere (etwa 15% kleiner, um im Normalfall 90% der Effizienz des Optimums zu erreichen). [Ich würde beide als "Silverman" -Schätzungen bezeichnen. Ich habe keine Ahnung, warum sie die 1.059 für Scott nennen.]
Meiner Meinung nach sind beide viel zu groß. Ich verwende keine Histogramme, um IMSE-optimale Schätzungen der Dichte zu erhalten. Wenn das (Abschätzen der Dichte, die im Sinne von IMSE optimal ist) das war, was ich tun wollte, würde ich zu diesem Zweck keine Histogramme verwenden wollen.
Die Histogramme sollten auf der lauteren Seite fehlerhaft sein (lassen Sie das Auge die notwendige Glättung vornehmen). Ich verdopple fast immer (oder mehr) die Standardanzahl von Behältern, die diese Art von Regeln gibt. Also würde ich nicht 1.06 oder 0.9 verwenden, sondern eher etwas um 0.5, vielleicht weniger bei wirklich großen Stichproben.
Es gibt wirklich sehr wenig Auswahlmöglichkeiten, da beide viel zu wenig Behälter zur Verfügung stellen, um die Daten zu ermitteln (zumindest bei kleinen Stichprobengrößen, siehe hier) .
[1]: Scott, DW (1979), "On optimal and data based histograms", Biometrika , 66 , 605-610.
quelle