Gaußsche Prozesse mit endlicher Abtastfläche

Ich entschuldige mich im Voraus, wenn diese Frage schlecht gestellt ist: Ich bin ein Astronom, kein Statistiker. Meine Frage soll mir speziell helfen, herauszufinden, ob Gaußsche Prozesse eine geeignete Technik für mein Problem sind.

Mit einem Teleskop und einem fasergespeisten Spektrographen hat mein Projekt an vielen Orten das optische Spektrum einer Galaxie aufgenommen. Das Abtastmuster für einen einzelnen Punkt befindet sich im ersten Bild und wird insgesamt dreimal mit unterschiedlichen räumlichen Versätzen wiederholt, um die Lücken zu füllen (zweites Bild). Idealerweise möchte ich Schätzungen bestimmter Größen über ein Gitter erstellen, das die Galaxie abdeckt.

Meine naive Methode wäre, das Spektrum jeder Faser separat zu analysieren, so dass ich -Punktschätzungen der interessierenden Größen habe, und dann einen Gaußschen Prozess zu konstruieren, um diese Größen überall zu schätzen. In ähnlicher Weise könnte ich einen Gaußschen Prozess für die Spektren selbst konstruieren und dann den GP in meinem Raster der Wahl analysieren, um die Größen zu finden, an denen ich interessiert bin. Ich bin mir jedoch nicht sicher, ob dies überhaupt ein gültiger Ansatz ist, da meine Beobachtungen dies sind nicht diskret, sondern fallen zusammen. $3 N_{fibers}$

Im Gegensatz zu beispielsweise Bodenwissenschaftlern, die möglicherweise Schmutz von einem sehr diskreten Ort aus untersuchen und sich dann 50 Meter entfernt und wiederholen, überlappen sich meine Beobachtungen räumlich, sodass ich das gesamte Licht, das eine Galaxie abgibt, integriere. Mir ist nicht klar, dass ich jede räumliche Variation, die innerhalb einer bestimmten Messung existieren könnte, vernachlässigen darf. Mit anderen Worten, ist ein Gaußscher Prozess überhaupt gültig, wenn einzelne Probenahmestellen nicht klein sind? Kann ich einen zusätzlichen räumlichen Begriff einbauen, um das "Mischen" des Lichts innerhalb einer einzelnen Faser zu berücksichtigen?

Nachtrag: Traditionell werden Spektren nur interpoliert, in einem Raster neu abgetastet und dann analysiert, was mir ebenfalls als äußerst falsch erscheint. Wenn ich jedoch auf Paraden von Kollegen regnen will, möchte ich zumindest eine alternative Methode vorstellen.

gaussian-process DathosPachy
quelle

Antworten:

Ich denke, Ihre beiden Fragen bringen das Problem auf den Punkt. Es hört sich so an, als könnten Sie für einen Teil des Problems Hausärzte verwenden, aber möglicherweise müssen Sie mehr tun. Um die Probleme zu erklären, die ich sehe, werde ich zuerst mein Verständnis Ihres Problems in eine mathematischere Sprache übersetzen:

Das Problem

Sie interessieren sich für eine physikalische Größe ("Spektren"?), Wobei ein Punkt in einem Bereich der Ebene ist (Ihr Foto). ist skalar, dh eine einzelne Zahl für jeden Punkt der Ebene. Sie können direkt beobachten , Sie können nur einen räumlichen Durchschnitt von an einigen Punkten eines Gitters beobachten. du beobachtestDie sind die verschiedenen überlappenden Datenträger in Ihrem Foto. Sie haben es nicht erwähnt, aber vielleicht enthalten Ihre Beobachtungen auch Messrauschen. Dann müssten Sie der RHS einen Rauschbegriff hinzufügen . $f(x)$ $x$ $f$ $f$ $F$ $s_k$

F (s_{k}) = \int_{D_{k}} f (x) d x .

$F(s_k) = \int_{D_k} f(x)dx.$

D_{k}

$D_k$

ϵ

$\epsilon$

Was ist mit Hausärzten?

Es ist absolut OK , um eine GP auf Ihre Beobachtungen zu passen , und Sie werden eine gültige GP Annäherung oder Interpolation erhalten . Dem Hausarzt ist es wirklich egal, dass Ihr aus überlappenden Scheiben besteht. Er wird genau das richtige Maß an Korrelation für Werte notieren und widerspiegeln, die ausreichend nahe beieinander liegen. Das Problem ist natürlich, dass dies einen GP für keinen für . Und ist keine (gute / vernünftige) Näherung von sei denn, ist auf mehr oder weniger konstant . $F$ $F$ $F$ $f$ $F$ $f$ $f$ $D_k$

Wie kann man wiederherstellen ? $f$

Es gibt verschiedene Möglichkeiten, von wiederherzustellen . Was machbar oder vielleicht sogar "am besten" ist, hängt von Ihren spezifischen Anforderungen und den Details des Problems ab. Da Sie die mittlere Funktion von kennen, können Sie eine Form der numerischen Entfaltung versuchen. $f$ $F$ $m_F$ $F$

Ein GP-temperamentvollerer Weg ist die Annahme, dass ein GP mit der mittleren Funktion und der Kovarianzfunktion . Die mathematische Theorie sagt Ihnen dann, dass ein GP mit der mittleren Funktion und der Kovarianz . $f$ $m$ $K$ $F$

m_{F} (s) = \int_{D_{s}} m (x) d x

$m_F(s) = \int_{D_s}m(x)dx$

K_{F} (s_{1}, s_{2}) = \int_{D_{s_{1}}} \int_{D_{s_{2}}} K (x_{1}, x_{2}) d x_{1} d x_{2}

$K_F(s_1,s_2) = \int_{D_{s_1}}\int_{D_{s_2}} K(x_1,x_2)dx_1dx_2$

Der Repräsentatorsatz für den Mittelwert eines GP sagt Ihnen dann, dass und Sie können durch Vergleichen der Koeffizienten schließen, dass $m_F(s) = \sum_k \alpha_k K_F(s_k,s)$

m (s) = \sum_{k} α_{k} \int_{D_{k}} K (x, s) d x .

$m(s) = \sum_k \alpha_k \int_{D_k} K(x,s) dx.$

Sie können die Vorhersageverteilung auch an einem Punkt ableiten, indem Sie feststellen, dass und die Beobachtungen von eine gemeinsame Normalverteilung haben, und Sie können von den Beobachtungen von abhängig machen . Die Formeln werden zwar kompliziert, sind aber unkompliziert (siehe dieses Papier Gleichungen (8) und (9)). $s^*$ $f(s^*)$ $F$ $F$

Das Problem dabei ist auf der praktischen Seite: Sie müssen entweder den Kernel aus Ihrer Wahl von was wahrscheinlich schwierig ist, oder Sie beginnen mit einem so dass (i) Sie berechnen UND (ii) einigermaßen gut funktioniert für Ihre Beobachtungen UND (iii) ist als Modell für Ihre astronomischen Daten sinnvoll. $K$ $K_F$ $K$ $K_F$ $K_F$ $K$

gg
quelle

Tolle Diskussion. Könnten wir uns stattdessen eine Prozedur vorstellen wie: 1) Erweitern Sie F auf ausgewählten Basisfunktionen, 2) Schätzen Sie den Vektor der Parameter und konstruieren Sie , 3) Nehmen Sie die Ableitung von , um wiederherzustellen ?

\hat{F}

$\hat{F}$

\hat{F}

$\hat{F}$

\hat{f}

$\hat{f}$

dv_bn

Ja, aber Schritt 3 funktioniert nur in einer Dimension, nicht in zwei, wie dies hier der Fall ist.

Auch wenn Sie eine Richtungsableitung nehmen?

dv_bn

Vielen Dank für diese äußerst gründliche Diskussion. Es hat mir viel zu denken gegeben!

DathosPachy

In der Geostatistik gibt es ein Thema namens Exact Downscaling. Das Hauptziel hierbei ist es, eine Eigenschaft in einem kleineren Maßstab als die Beobachtungen zu schätzen. Auch diese Beobachtungen können sich überschneiden oder nicht (spielt keine Rolle). Bitte schauen Sie sich dieses Papier an: http://www.ccgalberta.com/ccgresources/report07/2005-101-exact_reproduction.pdf

In diesem Artikel zeigen sie eine Methode, um die Beobachtungen mithilfe geostatistischer Techniken zu verkleinern. Sie zeigen, dass durch korrekte Berechnung der Kreuzkovarianzen zwischen verschiedenen Datenskalen (Punkt gegen Block) die Kriging-Schätzung weiterhin gültig ist; so dass der Durchschnitt der geschätzten Werte in kleinerem Maßstab gleich größeren Eingabedaten ist. Grundsätzlich müssen Sie zur Berechnung der Schätzwerte in einer beliebigen Skala nur die Kovarianzfunktion zwischen den Eingabedaten, Zielskalen und Kreuzkorrelationen korrekt berechnen. Beim Gaußschen Prozess wird davon ausgegangen, dass die Schätzung im gleichen Maßstab wie die Eingabebeobachtungen erfolgt.

Das sind also die Schritte: 1- Berechnen Sie das experimentelle Variogramm aus Ihren Daten.

2- Passen Sie das Variogrammmodell an Ihr experimentelles Variogam an. Möglicherweise müssen Sie hier die Richtungsanisotropie berücksichtigen. Dies ist die Kovarianzfunktion, die in GP nach der Maximum-Likelihood-Methode berechnet wird.

3- Berechnen Sie alle Kovarianzen und Kreuzkovarianzen zwischen Eingabedaten und Zielskala. Für diesen Schritt gibt es numerische Belege. Die Idee ist, dass Sie durch Diskretisierung der Blöcke in endliche Punkte die durchschnittliche Kovarianz berechnen können. Die Überlappungsdaten sollten hier berücksichtigt werden.

4- Kriging durchführen und die Schätzwerte berechnen.

GP ist ein sehr verwandtes Thema der Geostatistik. Die Geostatistik ist jedoch nicht auf Gaußsche Prozesse beschränkt. Es gibt viele andere Methoden, um einen zufälligen Prozess abzuschätzen oder zu simulieren.

Behrang
quelle

Willkommen auf der Website. Wir versuchen, ein permanentes Repository mit hochwertigen statistischen Informationen in Form von Fragen und Antworten aufzubauen. Daher sind wir aufgrund von Linkrot vorsichtig bei Nur-Link-Antworten. Können Sie ein vollständiges Zitat und eine Zusammenfassung der Informationen unter dem Link veröffentlichen, falls sie tot sein sollten?

Gung - Reinstate Monica