Wie wird die empirische Verteilung verwendet / interpretiert?

8

Zunächst möchte ich mich für den vagen Titel entschuldigen. Ich konnte gerade keinen besseren formulieren. Bitte ändern Sie den Titel oder raten Sie mir, ihn zu ändern, damit er besser zum Kern der Frage passt .

Was nun die Frage selbst betrifft, habe ich an einer Software gearbeitet, in der ich auf die Idee gekommen bin, eine empirische Verteilung für die Stichprobe zu verwenden. Jetzt, da sie implementiert ist, bin ich mir nicht sicher, wie ich alles interpretieren soll. Lassen Sie mich beschreiben, was ich getan habe und warum:

Ich habe eine Reihe von Berechnungen für eine Reihe von Objekten, die eine endgültige Punktzahl ergeben. Die Punktzahl ist jedoch sehr ad-hoc. Um aus der Bewertung eines bestimmten Objekts einen Sinn zu machen, führe ich eine große Anzahl von (N = 1000) Berechnungen von Bewertungen mit nachgebildeten / zufällig generierten Werten durch, was 1000 Scheinbewertungen ergibt. Das Schätzen einer empirischen "Bewertungsverteilung" für dieses bestimmte Objekt wird dann durch diese 1000 Scheinbewertungswerte erreicht.

Ich habe dies in Java (da der Rest der Software auch in einer Java-Umgebung geschrieben ist) unter Verwendung der Apache Commons Math-Bibliothek , insbesondere der EmpiricalDistImplKlasse, implementiert . Gemäß der Dokumentation verwendet diese Klasse:

Was entspricht der variablen Kernel-Methode mit Gaußscher Glättung: Digesting der Eingabedatei

  1. Übergeben Sie die Datei einmal, um min und max zu berechnen.
  2. Teilen Sie den Bereich von min-max in binCount "Bins".
  3. Übergeben Sie die Datendatei erneut und berechnen Sie die Anzahl der Behälter und die univariaten Statistiken (Mittelwert, Standardabweichung) für jeden der Behälter
  4. Teilen Sie das Intervall (0,1) in Teilintervalle, die den Behältern zugeordnet sind, wobei die Länge des Teilintervalls eines Behälters proportional zu seiner Anzahl ist.

Meine Frage ist nun, ob es sinnvoll ist, aus dieser Verteilung eine Stichprobe zu ziehen, um einen erwarteten Wert zu berechnen. Mit anderen Worten, wie sehr könnte ich dieser Distribution vertrauen / mich darauf verlassen? Könnte ich zum Beispiel durch Überprüfung der Verteilung eine Schlussfolgerung über die Bedeutung der Beobachtung einer Punktzahl ?S

Mir ist klar, dass dies vielleicht eine unorthodoxe Sichtweise auf ein solches Problem ist, aber ich denke, es wäre interessant, das Konzept empirischer Verteilungen besser in den Griff zu bekommen und zu erfahren, wie sie in der Analyse verwendet werden können / nicht.

posdef
quelle
Wenn ich Sie richtig verstanden habe, ist Ihre endgültige Verteilung im Grunde so gut wie Ihre "schein- / zufällig generierten Werte" für die Objekte. Also - denkst du, du hast die Verteilung deiner "Objekte" gut untersucht?
AVB
@AVB: Nicht so sehr die Verteilung des Objekts, sondern die Verteilung der Punktzahlen für ein bestimmtes Objekt. Ich denke, mein Ziel ist: A) Stellen Sie sicher, dass die Punkteberechnung solide und nicht auf unterschiedliche Eigenschaften der betreffenden Objekte ausgerichtet ist; und B) Um etwas über die Bedeutung der Punktzahl sagen zu können, die aus realen experimentellen Daten berechnet wurde
posdef
Sie könnten erwägen, mehr Proben von Ihren Objekten zu nehmen.
John Salvatier
@ John: Du meinst die Zahl von 1000 auf 10K zu erhöhen? Ich habe auch darüber nachgedacht, ich war mir jedoch nicht sicher, wie gut es sich angesichts der Rechenzeit auszahlen würde. Irgendwelche Ideen dazu?
Posdef
Ich kenne keinen einfachen Weg, um den Unterschied zu quantifizieren. Es kann lehrreich sein, eine Reihe von Histogrammen oder Kerneldichten (mit Ihren Augen) mit unterschiedlicher Anzahl von Punkten zu betrachten.
John Salvatier

Antworten:

5

Empirische Verteilungen werden ständig für Schlussfolgerungen verwendet, sodass Sie definitiv auf dem richtigen Weg sind! Eine der häufigsten Anwendungen empirischer Verteilungen ist das Bootstrapping. Tatsächlich müssen Sie nicht einmal eine der oben beschriebenen Maschinen verwenden. Kurz gesagt, Sie ziehen viele Zeichnungen (mit Ersatz) aus den Originalproben auf einheitliche Weise und die Ergebnisse können verwendet werden, um die Konfidenzintervalle für Ihre zuvor berechneten statistischen Größen zu berechnen. Darüber hinaus haben diese Proben gut entwickelte theoretische Konvergenzeigenschaften. Überprüfen Sie den Wikipedia - Artikel über das Thema aus hier .

Gary
quelle
Danke für deine Antwort, Gary. Ich bin mit Bootstrapping-Methoden vertraut, bin mir jedoch nicht sicher, wie (lesen Sie: wo in der Analyse) Sie vorschlagen, Bootstrapping zu implementieren. Über welche Originalproben sprechen wir?
Posdef
N=1000Nμ^NMM{μ^i}i=1Mμ^N
Gary
P(x>xobs)xF^1000(x)μ^N
yF(y)N=1000q^MMq^q^. Der entscheidende Punkt ist, dass das Originalbeispiel Ihnen die Statistik liefern kann und der Bootstrap das CI angibt. Vielleicht ist die eigentliche Frage, was Sie mit der empirischen Verteilung machen wollen.
Gary