Zunächst möchte ich mich für den vagen Titel entschuldigen. Ich konnte gerade keinen besseren formulieren. Bitte ändern Sie den Titel oder raten Sie mir, ihn zu ändern, damit er besser zum Kern der Frage passt .
Was nun die Frage selbst betrifft, habe ich an einer Software gearbeitet, in der ich auf die Idee gekommen bin, eine empirische Verteilung für die Stichprobe zu verwenden. Jetzt, da sie implementiert ist, bin ich mir nicht sicher, wie ich alles interpretieren soll. Lassen Sie mich beschreiben, was ich getan habe und warum:
Ich habe eine Reihe von Berechnungen für eine Reihe von Objekten, die eine endgültige Punktzahl ergeben. Die Punktzahl ist jedoch sehr ad-hoc. Um aus der Bewertung eines bestimmten Objekts einen Sinn zu machen, führe ich eine große Anzahl von (N = 1000) Berechnungen von Bewertungen mit nachgebildeten / zufällig generierten Werten durch, was 1000 Scheinbewertungen ergibt. Das Schätzen einer empirischen "Bewertungsverteilung" für dieses bestimmte Objekt wird dann durch diese 1000 Scheinbewertungswerte erreicht.
Ich habe dies in Java (da der Rest der Software auch in einer Java-Umgebung geschrieben ist) unter Verwendung der Apache Commons Math-Bibliothek , insbesondere der EmpiricalDistImpl
Klasse, implementiert . Gemäß der Dokumentation verwendet diese Klasse:
Was entspricht der variablen Kernel-Methode mit Gaußscher Glättung: Digesting der Eingabedatei
- Übergeben Sie die Datei einmal, um min und max zu berechnen.
- Teilen Sie den Bereich von min-max in binCount "Bins".
- Übergeben Sie die Datendatei erneut und berechnen Sie die Anzahl der Behälter und die univariaten Statistiken (Mittelwert, Standardabweichung) für jeden der Behälter
- Teilen Sie das Intervall (0,1) in Teilintervalle, die den Behältern zugeordnet sind, wobei die Länge des Teilintervalls eines Behälters proportional zu seiner Anzahl ist.
Meine Frage ist nun, ob es sinnvoll ist, aus dieser Verteilung eine Stichprobe zu ziehen, um einen erwarteten Wert zu berechnen. Mit anderen Worten, wie sehr könnte ich dieser Distribution vertrauen / mich darauf verlassen? Könnte ich zum Beispiel durch Überprüfung der Verteilung eine Schlussfolgerung über die Bedeutung der Beobachtung einer Punktzahl ?
Mir ist klar, dass dies vielleicht eine unorthodoxe Sichtweise auf ein solches Problem ist, aber ich denke, es wäre interessant, das Konzept empirischer Verteilungen besser in den Griff zu bekommen und zu erfahren, wie sie in der Analyse verwendet werden können / nicht.
quelle
Antworten:
Empirische Verteilungen werden ständig für Schlussfolgerungen verwendet, sodass Sie definitiv auf dem richtigen Weg sind! Eine der häufigsten Anwendungen empirischer Verteilungen ist das Bootstrapping. Tatsächlich müssen Sie nicht einmal eine der oben beschriebenen Maschinen verwenden. Kurz gesagt, Sie ziehen viele Zeichnungen (mit Ersatz) aus den Originalproben auf einheitliche Weise und die Ergebnisse können verwendet werden, um die Konfidenzintervalle für Ihre zuvor berechneten statistischen Größen zu berechnen. Darüber hinaus haben diese Proben gut entwickelte theoretische Konvergenzeigenschaften. Überprüfen Sie den Wikipedia - Artikel über das Thema aus hier .
quelle