Was sind die besten Methoden, um den 'Modus' von Daten anzupassen, die aus einer kontinuierlichen Verteilung entnommen wurden?
Da der Modus für eine kontinuierliche Verteilung technisch undefiniert ist (oder?), Frage ich mich wirklich, wie Sie den gängigsten Wert finden.
Wenn Sie davon ausgehen, dass die übergeordnete Verteilung Gauß ist, können Sie die Daten bündeln und feststellen, dass der Modus der Speicherort mit den höchsten Zählwerten ist. Wie bestimmen Sie jedoch die Behältergröße? Gibt es robuste Implementierungen? (dh robust gegenüber Ausreißern). Ich verwende python
/ scipy
/ numpy
, aber ich kann wohl übersetzen , R
ohne allzu große Schwierigkeiten.
distributions
fitting
mode
Keflavich
quelle
quelle
Antworten:
In R wird die Methode angewendet, die nicht auf der parametrischen Modellierung der zugrunde liegenden Verteilung basiert und den Standardkernschätzer für die Dichte auf 10000 gamma-verteilte Variablen verwendet:
gibt 0.199 zurück, was dem Wert von x entspricht, für den die höchste Dichte geschätzt wird (die Dichteschätzungen werden als "z $ y" gespeichert).
quelle
Angenommen, Sie erstellen ein Histogramm mit der Bin-Größe b und der größte Bin enthält k Einträge aus Ihrer Gesamtstichprobe mit der Größe n. Dann kann die durchschnittliche PDF innerhalb dieses Fachs als b * k / n geschätzt werden.
Das Problem ist, dass ein anderer Behälter mit weniger Mitgliedern eine hohe Punktdichte aufweisen kann. Dies können Sie nur wissen, wenn Sie eine vernünftige Annahme über die Änderungsrate der PDF-Datei haben. Wenn Sie dies tun, können Sie die Wahrscheinlichkeit abschätzen, mit der das zweitgrößte Fach tatsächlich den Modus enthält.
Das zugrunde liegende Problem ist dies. Eine Stichprobe liefert nach dem Kolmogorov-Smirnov-Theorem gute Kenntnisse über die CDF und somit eine gute Schätzung des Medians und anderer Quantile. Die Kenntnis einer Näherung an eine Funktion in L1 liefert jedoch keine ungefähre Kenntnis ihrer Ableitung. Daher bietet kein Beispiel gute Kenntnisse der PDF-Datei, ohne dass zusätzliche Annahmen erforderlich sind.
quelle
Hier einige allgemeine Lösungsskizzen, die auch für hochdimensionale Verteilungen geeignet sind:
Trainieren Sie ein f-GAN mit umgekehrter KL-Divergenz, ohne dem Generator eine zufällige Eingabe zu geben (dh zu erzwingen, dass er deterministisch ist).
Trainieren Sie einen f-GAN mit umgekehrter KL-Divergenz, verschieben Sie die Eingangsverteilung zum Generator in Richtung einer Dirac-Delta-Funktion, während das Training fortschreitet, und fügen Sie der Generatorverlustfunktion eine Gradientenstrafe hinzu.
Trainieren Sie ein (differenzierbares) generatives Modell, das eine Annäherung des PDF-Dokuments zu jedem Zeitpunkt nachvollziehbar auswerten kann (ich glaube, dass z. B. ein VAE-, ein flussbasiertes oder ein autoregressives Modell ausreichen würde). Verwenden Sie dann eine Art Optimierung (eine Variante des Gradientenaufstiegs kann verwendet werden, wenn die Modellinferenz differenzierbar ist), um ein Maximum dieser Näherung zu finden.
quelle