Angenommen, Sie haben einen Datensatz aus einer kontinuierlichen Verteilung mit der Dichte , getragen auf , dass nicht bekannt ist, aber ist ziemlich groß , so eine Kerndichte (zum Beispiel) , ziemlich genau. Für eine bestimmte Anwendung muss ich die beobachteten Daten in eine endliche Anzahl von Kategorien umwandeln, um einen neuen Datensatz mit einer impliziten Massenfunktion .
Ein einfaches Beispiel wäre , wenn Y i ≤ 1 / 2 und Z i = 1 , wenn Y i > 1 / 2 . In diesem Fall wäre die induzierte Massenfunktion
Die zwei "Abstimmungsparameter" sind hier die Anzahl der Gruppen und der ( m - 1 ) Längenvektor der Schwellenwerte λ . Bezeichne die induzierte Massenfunktion von g m , λ ( y ) .
Ich möchte ein Verfahren, das zum Beispiel antwortet: "Was ist die beste Wahl für so dass eine Erhöhung der Anzahl der Gruppen auf m + 1 (und Auswahl des optimalen λ dort) eine vernachlässigbare Verbesserung ergibt?". Ich habe das Gefühl, dass möglicherweise eine Teststatistik erstellt werden kann (möglicherweise mit dem Unterschied in der KL-Divergenz oder ähnlichem), deren Verteilung abgeleitet werden kann. Irgendwelche Ideen oder relevante Literatur?
Bearbeiten: Ich habe zeitliche Messungen einer kontinuierlichen Variablen gleichmäßig verteilt und verwende eine inhomogene Markov-Kette, um die zeitliche Abhängigkeit zu modellieren. Ehrlich gesagt sind diskrete staatliche Markov-Ketten viel einfacher zu handhaben, und das ist meine Motivation. Die beobachteten Daten sind Prozentsätze. Ich verwende derzeit eine Ad-hoc-Diskretisierung, die für mich sehr gut aussieht, aber ich denke, dies ist ein interessantes Problem, bei dem eine formale (und allgemeine) Lösung möglich ist.
Bearbeiten 2: Das Minimieren der KL-Divergenz wäre gleichbedeutend damit, die Daten überhaupt nicht zu diskretisieren, sodass diese Idee völlig ausfällt. Ich habe den Körper entsprechend bearbeitet.
Antworten:
Ich werde die Lösung teilen, die ich vor einiger Zeit für dieses Problem gefunden habe - dies ist kein formaler statistischer Test, kann aber eine nützliche Heuristik liefern.
Betrachten Sie den allgemeinen Fall, in dem Sie kontinuierliche Beobachtungen ; Nehmen wir ohne Verlust der Allgemeinheit an, dass der Probenraum jeder Beobachtung das Intervall [ 0 , 1 ] ist . Ein Kategorisierungsschema hängt von einer Anzahl von Kategorien m und den Ortsschwellen ab, die die Kategorien 0 < λ 1 < λ 2 < ⋯ < λ m - 1 < 1 teilen .Y1,Y2,...,Yn [0,1] m 0<λ1<λ2<⋯<λm−1<1
Bezeichne die kategorisierte Version von mit Z i ( m , λ ) , wobei λ = { λ 1 , λ 2 , ⋯ , λ m - 1 } . Wenn man die Diskretisierung der Daten als Aufteilung der Originaldaten in Klassen betrachtet, kann die Varianz von Y i als eine Kombination von Variationen innerhalb und zwischen Gruppen für einen festen Wert von m , λ betrachtet werden :Yi Zi(m,λ) λ={λ1,λ2,⋯,λm−1} Yi m,λ
Eine gegebene Kategorisierung ist erfolgreich bei der Erzeugung homogener Gruppen, wenn innerhalb der Gruppenvarianz relativ wenig vorhanden ist, quantifiziert durch . Daher suchen wir eine sparsame Gruppierung, die den größten Teil der Variation von Y i zum Term v a r ( E ( Y i | Z i ( m , λ ) ) . Insbesondere wollen wir m wählenE(var(Yi|Zi(m,λ)) Yi var(E(Yi|Zi(m,λ)) m λ m
A rough diagnostic for determining what choice ofm is adequate is to look at the dropoff in E(var(Yi|Zi(m,λ⋆m))) as a function of m - this trajectory is monotonically non-increasing and after it decreases sharply, then you can see that you're gaining relatively less precision by including more categories. This heuristic is similar in spirit how a "Scree Plot" is sometimes used to see how many principal components explain "enough" of the variation.
quelle