Schätzung der Varianz von zentrumszensierten Normalproben

11

Ich habe normalerweise verteilte Prozesse , aus denen ich kleine Proben (erhalten n typischerweise 10-30) , dass ich verwenden möchte Varianz zu schätzen. Aber häufig sind die Proben so nahe beieinander, dass wir einzelne Punkte in der Nähe des Zentrums nicht messen können.

Ich habe dieses vage Verständnis, dass wir in der Lage sein sollten, einen effizienten Schätzer unter Verwendung geordneter Stichproben zu erstellen: Wenn ich beispielsweise weiß, dass die Stichprobe 20 Punkte enthält und 10 nahe der Mitte zu eng gruppiert sind, um einzeln gemessen zu werden, habe ich diskrete Messungen von Gibt es an beiden Enden einen Standard- / Formelansatz zur Schätzung der Prozessvarianz, bei dem solche Stichproben optimal genutzt werden?

(Beachten Sie, dass ich nicht glaube, dass ich nur den mittleren Durchschnitt gewichten kann. Beispielsweise können sich 7 Stichproben eng zusammenballen, während drei weitere asymmetrisch zur Seite geneigt sind, aber nahe genug, dass wir dies ohne langwierigere Einzelstichproben nicht feststellen können .)

Wenn die Antwort kompliziert ist, würden wir uns über Tipps freuen, was ich erforschen sollte. Ist dies beispielsweise ein Problem der Auftragsstatistik? Gibt es wahrscheinlich eine formelhafte Antwort oder ist dies ein Rechenproblem?

Aktualisiertes Detail: Die Anwendung ist die Analyse von Schießzielen. Eine einzelne zugrunde liegende Probe ist der Aufprallpunkt ( x, y ) eines einzelnen Schusses auf das Ziel. Der zugrunde liegende Prozess hat eine symmetrische bivariate Normalverteilung, aber es gibt keine Korrelation zwischen den Achsen, sodass wir die Stichproben { x } und { y } als unabhängige Zeichnungen aus derselben Normalverteilung behandeln können. (Wir könnten auch sagen, dass der zugrunde liegende Prozess Rayleigh-verteilt ist, aber wir können die Rayleigh-Stichprobenvariablen nicht messen, da wir die Koordinaten des "wahren" Zentrums des Prozesses nicht sicher sein können, was für kleines n signifikant sein kann vom Probenzentrum entfernt ( , ˉ y ).)x¯y¯

Wir erhalten ein Ziel und die Anzahl der Schüsse. Das Problem ist, dass für n >> 3 präzise Waffen normalerweise ein "zerlumptes Loch" abgefeuert wird, das von unterschiedlichen Schüssen umgeben ist. Wir können die x- und y- Breite des Lochs beobachten, aber wir wissen nicht, wo in dem Loch die nicht unterschiedlichen Schüsse getroffen wurden.

Hier einige Beispiele für problematischere Ziele:

[Beispielziel mit n = 10]

Probenziel mit n = 100

(Zugegeben, in einer idealen Welt würden wir nach jedem Schuss die Ziele ändern / wechseln und dann die Proben für die Analyse aggregieren. Es gibt eine Reihe von Gründen, die oft unpraktisch sind, obwohl dies möglich ist .)

Weitere Hinweise nach WHubers Klarstellungen in den Kommentaren: Schüsse erzeugen Ziellöcher mit einheitlichem und bekanntem Durchmesser. Wenn sich ein Schuss außerhalb einer "zerlumpten Gruppe" befindet, kennen wir den Projektilradius und können so das genaue Zentrum x i messenxich . In jeder "zerlumpten Gruppe" können wir einige periphere "Kugeln" erkennen und erneut die genaue Mitte dieser Außenschüsse basierend auf dem bekannten Projektilradius markieren. Es sind die verbleibenden "zentrumszensierten" Schüsse, von denen wir nur wissen, dass sie irgendwo im Inneren einer "zerlumpten Gruppe" getroffen werden (was normalerweise - und wenn nötig - eine pro Ziel ist).

Um die Lösung zu erleichtern, ist es meines Erachtens am einfachsten, dies auf einen Satz eindimensionaler Proben aus der Normalen mit einem zentralen Intervall der Breite w > d zu reduzieren , wobei d der Projektildurchmesser ist, der c <enthält n "zensierte" Proben enthält.

Fußnass
quelle
(1) Ist die Normalverteilung eine Annahme oder haben Sie gute Beweise dafür? (2) Ist das Problem, dass Sie die Daten in der Nähe des Zentrums nicht genau zählen können? (Das wäre anders als die übliche Bedeutung von "Zensur", dh Sie können diese Daten zählen, aber Sie wissen nur, dass ihre Werte in bestimmten Intervallen liegen.)
whuber
@whuber: Ja, wir haben sowohl fundamentale als auch empirische Beweise dafür, dass der Prozess normal verteilt ist. Und ja, wir kennen die genaue Anzahl der Punkte in der Gesamtgruppe und können die Intervalle beobachten, in denen zu viele Stichproben liegen, um einzelne Werte zu bestimmen.
Fußnässe
Danke, das ist hilfreich. Die Art der Unsicherheit ist jedoch noch unklar, und ein gutes Modell dafür könnte eine gute Lösung motivieren. Könnten Sie vielleicht eine Illustration oder ein Beispiel liefern oder zumindest den Messvorgang etwas detaillierter beschreiben?
whuber
@whuber: Aktualisiert. Wenn es hilft, werde ich auch daran arbeiten, Links zu einigen echten Beispielen zu veröffentlichen.
Fußnässe
xich,(μ,σ2)σichB.(xich,r)rB.(x,r)rumx

Antworten:

2

Das ist ein interessantes Problem. Erstens würde ich nicht von einer Normalverteilung ausgehen. Es scheint, dass Sie wirklich nach einer Schätzung der Streuung suchen, die Sie ziemlich auf viele verschiedene Schützen oder Waffen oder Munition oder was auch immer anwenden.

Ich würde versuchen, das umzukehren. Sie wissen nicht genau, wohin alle Kugeln gingen, es sei denn, Sie sehen 10 separate Löcher (unter der Annahme von 10 Schüssen). Aber Sie wissen, wohin sie nicht gegangen sind. Dies kann verwendet werden, um die Verteilung unter der Annahme von Bayes'schen Statistiken einzuschränken, wenn Sie mit einer Verteilung beginnen möchten.

Eine Idee, die hier am besten sein könnte, ist, aufzuhören, es mathematisch zu versuchen, und einfach etwas Vernünftiges wie dieses zu tun. Nehmen Sie das Ziel und führen Sie eine Bildverarbeitungsroutine aus, um die Aufnahme durch einen Bereich zu markieren, der möglicherweise nicht verbunden ist. Messen Sie den Mittelwert und den zweiten Moment davon und verwenden Sie diese als Schätzer. Wenn Sie etwas weiter gehen und versuchen möchten, es zu Gaußschen, können Sie ein einfaches Monte-Carlo-Experiment durchführen, um einen Kalibrierungsfaktor zu erhalten.

Dave31415
quelle
Lassen Sie mich etwas mehr erklären. Angenommen, Sie haben 10 Schüsse und es gibt 6 freie Löcher, in denen Sie wissen, wohin die Kugeln gingen. Nehmen Sie zuerst diese Punkte und verwenden Sie sie, um die Gaußsche Breite zu beschränken. Nach der üblichen Routine wird dadurch das Sigma des Gaußschen Sigmas eingeschränkt (um eine bekannte Verbreitung zu sein. Cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf
Dave31415
Sobald Sie dies getan haben, möchten Sie die 4 Kugeln betrachten, die keine neuen Löcher gemacht haben. Da die Kugeln unabhängig sind, kann diese neue Wahrscheinlichkeit (auf dem Gaußschen Sigma) einfach multipliziert werden. Grundsätzlich möchten Sie für jede der 4 Kugeln mit der Wahrscheinlichkeit multiplizieren, dass sie kein neues Loch bilden.
Dave31415
Eine einfache Möglichkeit, dies mit Monte Carlo zu tun, besteht darin, eine Reihe von Sigma aus Ihrer eingeschränkten Verteilung zu ziehen und mit diesem Sigma die Wahrscheinlichkeit zu berechnen, dass kein neues Loch entsteht. Zeichnen Sie also viele simulierte Aufnahmen daraus und zählen Sie, welcher Bruchteil keine neuen Löcher macht. Dies kann dann verwendet werden, um die Wahrscheinlichkeit zu aktualisieren. Fahren Sie dann mit dem nächsten fort und machen Sie dasselbe. Jetzt haben Sie Ihre endgültige Wahrscheinlichkeit.
Dave31415
Letzter Kommentar. Aus praktischer Sicht sollte die Schätzung des Sigmas nicht so stark davon beeinflusst werden, wo genau die unsichtbaren Kugeln hingegangen sind, solange Sie davon ausgehen, dass sie durch vorherige Löcher gegangen sind. Es wird hauptsächlich durch diejenigen eingeschränkt, die die Kante definieren. Das liegt daran, dass die Wahrscheinlichkeit, dass eine Kugel zweimal durch ein Loch geht, das weit vom Zentrum entfernt ist, sehr gering ist. Selbst ein roher Monte Carlo bringt Sie dem optimalen Schätzer sehr nahe.
Dave31415
Wenn wir keine normale (oder andere) Verteilung behaupten, ist es unwahrscheinlich, dass wir mehr sagen können, als eine Ober- oder Untergrenze für das festzulegen, was in der zensierten Region vor sich geht. In dem eindimensionalen Fall, in dem wir n Schüsse zensiert haben, ist eine Untergrenze der Varianz anzunehmen, dass sie alle denselben inneren Punkt treffen, der dem Mittelwert am nächsten liegt, und (vorausgesetzt, der Mittelwert ist im Inneren zentriert) eine Obergrenze zu Angenommen, die zensierten Punkte sind gleichmäßig an der Peripherie des Innenraums verteilt. Wenn wir jedoch davon ausgehen, dass der zugrunde liegende Prozess normal ist, sollten wir in der Lage sein, etwas besseres zu tun.
Fußnässe
0

Von einem anderen Standpunkt aus könnte man dies im Lichte des Bereichs der Raumstatistik betrachten, der eine Reihe von Metriken erstellt hat, von denen viele in Toolboxen platziert wurden (siehe zum Beispiel https://www.google.com) /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

Wikipedia (Link: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) hat tatsächlich eine gute Einführungsseite, auf der Konzepte wie Messungen der räumlichen zentralen Tendenz und der räumlichen Streuung diskutiert werden. Um Wikipedia zu letzterem zu zitieren:

"Für die meisten Anwendungen sollte die räumliche Streuung auf eine Weise quantifiziert werden, die für Rotationen und Reflexionen unveränderlich ist. Mithilfe der Kovarianzmatrix der Koordinaten der Punkte können mehrere einfache Maße der räumlichen Streuung für einen Punktsatz definiert werden. Die Spur, die Determinante und der größte Eigenwert der Kovarianzmatrix kann als Maß für die räumliche Streuung verwendet werden. Ein Maß für die räumliche Streuung, das nicht auf der Kovarianzmatrix basiert, ist der durchschnittliche Abstand zwischen den nächsten Nachbarn. [1] "

Verwandte Konzepte umfassen Messungen der räumlichen Homogenität, Ripleys K- und L-Funktionen und möglicherweise den für die Analyse von Kugelclustern relevantesten Cuzick-Edwards-Test zur Clusterbildung von Subpopulationen innerhalb von Clusterpopulationen. Der letztere Test basiert auf dem Vergleich (unter Verwendung von "Nearest-Neighbour" -Analysen zur Tabellierung von Statistiken) mit einer Kontrollpopulation, die im aktuellen Kontext auf tatsächlich beobachteten Zielen basieren könnte, die als nicht gruppiert oder nach einer theoretischen Simulation von klassifiziert wurden sagen die Rayleigh-Verteilung.

AJKOER
quelle