Ich habe normalerweise verteilte Prozesse , aus denen ich kleine Proben (erhalten n typischerweise 10-30) , dass ich verwenden möchte Varianz zu schätzen. Aber häufig sind die Proben so nahe beieinander, dass wir einzelne Punkte in der Nähe des Zentrums nicht messen können.
Ich habe dieses vage Verständnis, dass wir in der Lage sein sollten, einen effizienten Schätzer unter Verwendung geordneter Stichproben zu erstellen: Wenn ich beispielsweise weiß, dass die Stichprobe 20 Punkte enthält und 10 nahe der Mitte zu eng gruppiert sind, um einzeln gemessen zu werden, habe ich diskrete Messungen von Gibt es an beiden Enden einen Standard- / Formelansatz zur Schätzung der Prozessvarianz, bei dem solche Stichproben optimal genutzt werden?
(Beachten Sie, dass ich nicht glaube, dass ich nur den mittleren Durchschnitt gewichten kann. Beispielsweise können sich 7 Stichproben eng zusammenballen, während drei weitere asymmetrisch zur Seite geneigt sind, aber nahe genug, dass wir dies ohne langwierigere Einzelstichproben nicht feststellen können .)
Wenn die Antwort kompliziert ist, würden wir uns über Tipps freuen, was ich erforschen sollte. Ist dies beispielsweise ein Problem der Auftragsstatistik? Gibt es wahrscheinlich eine formelhafte Antwort oder ist dies ein Rechenproblem?
Aktualisiertes Detail: Die Anwendung ist die Analyse von Schießzielen. Eine einzelne zugrunde liegende Probe ist der Aufprallpunkt ( x, y ) eines einzelnen Schusses auf das Ziel. Der zugrunde liegende Prozess hat eine symmetrische bivariate Normalverteilung, aber es gibt keine Korrelation zwischen den Achsen, sodass wir die Stichproben { x } und { y } als unabhängige Zeichnungen aus derselben Normalverteilung behandeln können. (Wir könnten auch sagen, dass der zugrunde liegende Prozess Rayleigh-verteilt ist, aber wir können die Rayleigh-Stichprobenvariablen nicht messen, da wir die Koordinaten des "wahren" Zentrums des Prozesses nicht sicher sein können, was für kleines n signifikant sein kann vom Probenzentrum entfernt ( , ˉ y ).)
Wir erhalten ein Ziel und die Anzahl der Schüsse. Das Problem ist, dass für n >> 3 präzise Waffen normalerweise ein "zerlumptes Loch" abgefeuert wird, das von unterschiedlichen Schüssen umgeben ist. Wir können die x- und y- Breite des Lochs beobachten, aber wir wissen nicht, wo in dem Loch die nicht unterschiedlichen Schüsse getroffen wurden.
Hier einige Beispiele für problematischere Ziele:
(Zugegeben, in einer idealen Welt würden wir nach jedem Schuss die Ziele ändern / wechseln und dann die Proben für die Analyse aggregieren. Es gibt eine Reihe von Gründen, die oft unpraktisch sind, obwohl dies möglich ist .)
Weitere Hinweise nach WHubers Klarstellungen in den Kommentaren: Schüsse erzeugen Ziellöcher mit einheitlichem und bekanntem Durchmesser. Wenn sich ein Schuss außerhalb einer "zerlumpten Gruppe" befindet, kennen wir den Projektilradius und können so das genaue Zentrum x i messen . In jeder "zerlumpten Gruppe" können wir einige periphere "Kugeln" erkennen und erneut die genaue Mitte dieser Außenschüsse basierend auf dem bekannten Projektilradius markieren. Es sind die verbleibenden "zentrumszensierten" Schüsse, von denen wir nur wissen, dass sie irgendwo im Inneren einer "zerlumpten Gruppe" getroffen werden (was normalerweise - und wenn nötig - eine pro Ziel ist).
Um die Lösung zu erleichtern, ist es meines Erachtens am einfachsten, dies auf einen Satz eindimensionaler Proben aus der Normalen mit einem zentralen Intervall der Breite w > d zu reduzieren , wobei d der Projektildurchmesser ist, der c <enthält n "zensierte" Proben enthält.
quelle
Antworten:
Das ist ein interessantes Problem. Erstens würde ich nicht von einer Normalverteilung ausgehen. Es scheint, dass Sie wirklich nach einer Schätzung der Streuung suchen, die Sie ziemlich auf viele verschiedene Schützen oder Waffen oder Munition oder was auch immer anwenden.
Ich würde versuchen, das umzukehren. Sie wissen nicht genau, wohin alle Kugeln gingen, es sei denn, Sie sehen 10 separate Löcher (unter der Annahme von 10 Schüssen). Aber Sie wissen, wohin sie nicht gegangen sind. Dies kann verwendet werden, um die Verteilung unter der Annahme von Bayes'schen Statistiken einzuschränken, wenn Sie mit einer Verteilung beginnen möchten.
Eine Idee, die hier am besten sein könnte, ist, aufzuhören, es mathematisch zu versuchen, und einfach etwas Vernünftiges wie dieses zu tun. Nehmen Sie das Ziel und führen Sie eine Bildverarbeitungsroutine aus, um die Aufnahme durch einen Bereich zu markieren, der möglicherweise nicht verbunden ist. Messen Sie den Mittelwert und den zweiten Moment davon und verwenden Sie diese als Schätzer. Wenn Sie etwas weiter gehen und versuchen möchten, es zu Gaußschen, können Sie ein einfaches Monte-Carlo-Experiment durchführen, um einen Kalibrierungsfaktor zu erhalten.
quelle
Von einem anderen Standpunkt aus könnte man dies im Lichte des Bereichs der Raumstatistik betrachten, der eine Reihe von Metriken erstellt hat, von denen viele in Toolboxen platziert wurden (siehe zum Beispiel https://www.google.com) /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).
Wikipedia (Link: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) hat tatsächlich eine gute Einführungsseite, auf der Konzepte wie Messungen der räumlichen zentralen Tendenz und der räumlichen Streuung diskutiert werden. Um Wikipedia zu letzterem zu zitieren:
"Für die meisten Anwendungen sollte die räumliche Streuung auf eine Weise quantifiziert werden, die für Rotationen und Reflexionen unveränderlich ist. Mithilfe der Kovarianzmatrix der Koordinaten der Punkte können mehrere einfache Maße der räumlichen Streuung für einen Punktsatz definiert werden. Die Spur, die Determinante und der größte Eigenwert der Kovarianzmatrix kann als Maß für die räumliche Streuung verwendet werden. Ein Maß für die räumliche Streuung, das nicht auf der Kovarianzmatrix basiert, ist der durchschnittliche Abstand zwischen den nächsten Nachbarn. [1] "
Verwandte Konzepte umfassen Messungen der räumlichen Homogenität, Ripleys K- und L-Funktionen und möglicherweise den für die Analyse von Kugelclustern relevantesten Cuzick-Edwards-Test zur Clusterbildung von Subpopulationen innerhalb von Clusterpopulationen. Der letztere Test basiert auf dem Vergleich (unter Verwendung von "Nearest-Neighbour" -Analysen zur Tabellierung von Statistiken) mit einer Kontrollpopulation, die im aktuellen Kontext auf tatsächlich beobachteten Zielen basieren könnte, die als nicht gruppiert oder nach einer theoretischen Simulation von klassifiziert wurden sagen die Rayleigh-Verteilung.
quelle