Ermittlung einer optimalen Diskretisierung von Daten aus einer kontinuierlichen Verteilung

11

Angenommen, Sie haben einen Datensatz Y1,...,Yn aus einer kontinuierlichen Verteilung mit der Dichte p(y) , getragen auf [0,1] , dass nicht bekannt ist, aber n ist ziemlich groß , so eine Kerndichte (zum Beispiel) p^(y) , ziemlich genau. Für eine bestimmte Anwendung muss ich die beobachteten Daten in eine endliche Anzahl von Kategorien umwandeln, um einen neuen Datensatz Z1,...,Znmit einer impliziten Massenfunktion .g(z)

Ein einfaches Beispiel wäre , wenn Y i1 / 2 und Z i = 1 , wenn Y i > 1 / 2 . In diesem Fall wäre die induzierte MassenfunktionZi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

Die zwei "Abstimmungsparameter" sind hier die Anzahl der Gruppen und der ( m - 1 ) Längenvektor der Schwellenwerte λ . Bezeichne die induzierte Massenfunktion von g m , λ ( y ) .m(m1)λg^m,λ(y)

Ich möchte ein Verfahren, das zum Beispiel antwortet: "Was ist die beste Wahl für so dass eine Erhöhung der Anzahl der Gruppen auf m + 1 (und Auswahl des optimalen λ dort) eine vernachlässigbare Verbesserung ergibt?". Ich habe das Gefühl, dass möglicherweise eine Teststatistik erstellt werden kann (möglicherweise mit dem Unterschied in der KL-Divergenz oder ähnlichem), deren Verteilung abgeleitet werden kann. Irgendwelche Ideen oder relevante Literatur?m,λm+1λ

Bearbeiten: Ich habe zeitliche Messungen einer kontinuierlichen Variablen gleichmäßig verteilt und verwende eine inhomogene Markov-Kette, um die zeitliche Abhängigkeit zu modellieren. Ehrlich gesagt sind diskrete staatliche Markov-Ketten viel einfacher zu handhaben, und das ist meine Motivation. Die beobachteten Daten sind Prozentsätze. Ich verwende derzeit eine Ad-hoc-Diskretisierung, die für mich sehr gut aussieht, aber ich denke, dies ist ein interessantes Problem, bei dem eine formale (und allgemeine) Lösung möglich ist.

Bearbeiten 2: Das Minimieren der KL-Divergenz wäre gleichbedeutend damit, die Daten überhaupt nicht zu diskretisieren, sodass diese Idee völlig ausfällt. Ich habe den Körper entsprechend bearbeitet.

Makro
quelle
1
In den meisten Fällen bestimmen die Anforderungen der Folgeanwendung die Güte einer Lösung. Um uns eine Anleitung zu geben, könnten Sie vielleicht mehr dazu sagen.
whuber
Definieren Sie zunächst, was Sie unter vernachlässigbar verstehen . Auf den ersten Blick scheint dies mit einem Problem der Ratenverzerrung zu tun zu haben. Der Cover & Thomas- Text bietet eine gut lesbare Einführung in solche Themen.
Kardinal
Ich stelle mir die Diskretisierung mit Ebenen wie ein Modell mit k - 1 Parametern (für die Schwellenwerte) vor. Wenn ich in dieser Einstellung vernachlässigbar sage, meine ich "es lohnt sich nicht, den zusätzlichen Parameter hinzuzufügen" im statistischen Sinne. kk1
Makro
Ich bin mir nicht sicher, ob Diskretisierung tatsächlich ein guter Schachzug ist. Sie können nicht über die Grenzen hinweg verallgemeinern, die die diskreten Werte im ursprünglichen Raum Ihrer Beobachtungen erzeugen.
Bayerj

Antworten:

3

Ich werde die Lösung teilen, die ich vor einiger Zeit für dieses Problem gefunden habe - dies ist kein formaler statistischer Test, kann aber eine nützliche Heuristik liefern.


Betrachten Sie den allgemeinen Fall, in dem Sie kontinuierliche Beobachtungen ; Nehmen wir ohne Verlust der Allgemeinheit an, dass der Probenraum jeder Beobachtung das Intervall [ 0 , 1 ] ist . Ein Kategorisierungsschema hängt von einer Anzahl von Kategorien m und den Ortsschwellen ab, die die Kategorien 0 < λ 1 < λ 2 < < λ m - 1 < 1 teilen .Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

Bezeichne die kategorisierte Version von mit Z i ( m , λ ) , wobei λ = { λ 1 , λ 2 , , λ m - 1 } . Wenn man die Diskretisierung der Daten als Aufteilung der Originaldaten in Klassen betrachtet, kann die Varianz von Y i als eine Kombination von Variationen innerhalb und zwischen Gruppen für einen festen Wert von m , λ betrachtet werden :YiZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

Eine gegebene Kategorisierung ist erfolgreich bei der Erzeugung homogener Gruppen, wenn innerhalb der Gruppenvarianz relativ wenig vorhanden ist, quantifiziert durch . Daher suchen wir eine sparsame Gruppierung, die den größten Teil der Variation von Y i zum Term v a r ( E ( Y i | Z i ( m , λ ) ) . Insbesondere wollen wir m wählen E(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

A rough diagnostic for determining what choice of m is adequate is to look at the dropoff in E(var(Yi|Zi(m,λm))) as a function of m - this trajectory is monotonically non-increasing and after it decreases sharply, then you can see that you're gaining relatively less precision by including more categories. This heuristic is similar in spirit how a "Scree Plot" is sometimes used to see how many principal components explain "enough" of the variation.

Macro
quelle