Meine Frage ist: Wie können wir teilweise gemessene Ausgabedaten in einem Trainingssatz verwenden? Das ist vage, also konkretisiere ich es in einer skurrilen Geschichte.
Eichhörnchen haben Nüsse, aber wie viele?
Installieren
Es gibt eine Reihe von Eichhörnchen und eine Reihe von Bäumen im Wald. Eichhörnchen hat Muttern. Eichhörnchen lagern ihre Nüsse in einem Baum oder in vielen verschiedenen Bäumen im Wald. Wir möchten vorhersagen, wie viele Nüsse ein bestimmtes Eichhörnchen aus Eingabemerkmalen gesammelt hat: Eichhörnchengewicht und Wangenkapazität.
Forschungsphase 1:
Wir haben eine Untergruppe von Eichhörnchen überwacht. Nahm ihre Messungen (Gewicht und Wangenkapazität) und zählte
- wie viele Nüsse sie gesammelt haben und
- in wie vielen Bäumen haben sie sie gelagert
(zB Eichhörnchen Nr. 55 lagerte 5 Nüsse in einem Baum, 10 Nüsse in einem anderen und 500 Nüsse in einem anderen [welche 3 Bäume unbekannt sind])
Forschungsphase 2:
Wir haben eine Untergruppe von Bäumen überwacht. Als ein Eichhörnchen an einem unserer Bäume ankam, identifizierten wir sie (um zu wissen, ob sie später zu einem anderen Baum in unserer Studienuntergruppe gingen), maßen sie (Gewicht und Wangenkapazität) und zählten, wie viele Nüsse sie abfielen. Dies gab uns eine Teilmessung der Nusssammlung für eine Untergruppe von Eichhörnchen.
(zB in Baum Nr. 23 haben wir 10 Nüsse von Eichhörnchen Nr. 99 und 50 von Eichhörnchen Nr. 88 gesammelt, in Baum Nr. 24 haben wir gesammelt ...)
(Wichtiger Hinweis: Eichhörnchen-IDs bleiben nicht über Phasen hinweg bestehen.)
Frage
Angenommen, wir möchten die Anzahl der Gesamtmuttern eines Eichhörnchens aus Phase 2 modellieren. Wie können wir ihre Teilmutternmessungen verwenden, um die Modellierungsergebnisse zu verbessern?
Wie können wir außerdem teilweise gemessene Ergebnisse in das Trainingsset einbringen?
Antworten:
Lustige Frage. Das von @MartijnWeterings festgestellte Hauptproblem besteht darin, dass die Anzahl der Bäume in Phase 2 nur eine Teilmessung der Gesamtzahl der Bäume ist. Wenn wir jedoch die Gesamtzahl der Bäume kennen würden, könnten wir das Problem lösen, indem wir ein Modell der Anzahl der in Stufe 1 beobachteten Nüsse unter Berücksichtigung der Anzahl der Bäume in Stufe 1 erstellen und dann die Anzahl der Nüsse in Stufe 2 unter Verwendung der vorhersagen Anzahl der Bäume in Stufe 2. Unsere Strategie in dieser Antwort besteht daher darin, zuerst die Anzahl der Bäume in Stufe 2 zu schätzen und dann ein Modell der Nüsse zu erstellen, denen Bäume in Stufe 1 gegeben wurden.
Notation und Annahme
Im Folgenden gehe ich davon aus, dass die Stichprobe von Bäumen und Eichhörnchen in allen Phasen zufällig ist. Lassen bezeichnet die Summe aller Nüsse von Eichhörnchen gesammelt in Phase 1. Sei die Gesamtzahl der Bäume bezeichnen Eichhörnchen an in Phase 1. Es sei Nuss gespeichert bezeichnet die unbeobachtete Summe von Nüssen gesammelt durch Eichhörnchen in Phase 2 und sei die Anzahl der Bäume, in denen Eichhörnchen Nüsse in Phase 2 gespeichert hat. Schließlich sei die teilweise Anzahl der beobachteten Bäume, wobei ,n1i i t1i i n2j j t2j j k2j k2j≤t2j
Anzahl der Bäume in Stufe 2
Wie von @MartijnWeterings festgestellt, ist immer kleiner oder gleich der Gesamtzahl der Bäume in Phase 2, was unbekannt ist. Unser Ziel ist es daher, so genau wie möglich zu schätzen . Glücklicherweise haben wir einige Informationen zu . Abhängig von Ihrem Stichprobenentwurf in Phase 2 besteht eine Wahrscheinlichkeit dass ein Eichhörnchen an einem der insgesamt von ihm besuchten gefangen wird . Die Wahrscheinlichkeit von ist somit mit den Parametern und binomisch . Wir beobachten jedoch das Binomial ; die Anzahl der Bäumek2j t2j t2j t2j p t2j k2j t2j p k2j t2j ist jedoch bei nicht binomial verteilt . Ich war mir über die genaue Verteilung nicht sicher und stellte daher auf Mathematics-StackExchange eine Frage dazu . Ich erhielt die nützliche Antwort, dass die Wahrscheinlichkeitsmassenfunktion von mit und gegeben ist durch
für alle die die Erwartung . Wenn wir also und , könnten wir schätzen . Wie gesagt, Wahrscheinlichkeitk2j t=t2j k=k2j p P(t;k,p)=(t−1k)pt(1−p)(t−k),t∈{k,...,∞}. j E(t)=k/p k2j p t^2j=k2j/p p hängt von Ihrem Stichprobendesign ab, aber zum Glück können wir es aus den Daten als
so dass .p^=∑jk2j∑it1i t^2j=k2j/p^
Schätzung unter Proportionalitätsannahme
Lassen
ist der durchschnittliche Anteil der Nüsse, die ein Eichhörnchen an einem Baum hinterlassen hat. Eine erste Schätzung der Gesamtzahl der Nüsse des Eichhörnchens istj
Schätzung anhand der Beziehung zwischen Nüssen und Bäumen in Phase 1
Dies mag unbefriedigend erscheinen, da nicht berücksichtigt wird, dass zwischen und andere Beziehung als eine einfache proportionale besteht. Zum Beispiel können wir uns Eichhörnchen vorstellen, die das seltsame Verhalten haben, weniger Nüsse pro Baum zu hinterlassen, je mehr Nüsse ihnen zur Verfügung stehen. Dann würde die Gesamtzahl der Nüsse mit nicht proportional zunehmen und stattdessen abflachen. Daher könnten wir uns für ein Modell entscheidenn t n t
Dabei ist eine nichtlineare Funktion mit den Parametern Theta und ein Messfehlerterm. Eine naheliegende Wahl könnte seinf ϵi
mit iid normal mit 0 Erwartung. Das Modell könnte durch nichtlineare kleinste Quadrate oder maximale Wahrscheinlichkeit angepasst werden. Ein Schätzer wäre dannϵi
Natürlich können auch andere funktionale Formen verwendet werden oder Sie können flexible Modellierungstechniken verwenden, um die funktionale Beziehung zu approximieren, z. B. zufällige Wälder (Wortspiel beabsichtigt).
Simulationen
Funktioniert das? Lass es uns versuchen. Ich simuliere Datenn+1 n∼Poisson(20) h1+1 h1∼Poisson(λ) λ∼Γ(60/n,1) 1+(h2,...,ht) t ht {h1,...,ht} . Wie gesagt, ich davon aus, dass Sie in Phase 2 eine einfache Zufallsstichprobe von Bäumen haben und daher (den von Eichhörnchen j besuchten k-ten Baum) mit der Wahrscheinlichkeit (unten im Code, den ich diese Kürzung nenne) beobachten.hkj p
R
gemäß den folgenden Ideen. Die Wahrscheinlichkeit, dass ein Eichhörnchen Nüsse sammelt, ist durch . Ein Eichhörnchen kommt dann am ersten Baum an und versteckt Nüsse, wobei und . Es versteckt sich weiterhin bei Nüssen, bis es am Baum ankommt und Nüsse mehr hat. Dies geschieht unabhängig davon, ob Sie es in Phase 1 oder 2 beobachten. In Phase 1 beobachten Sie jedoch alle , während Sie in Phase 2 eine Stichprobe ausIch probiere jetzt 1000 Eichhörnchen in Phase 1. Die folgende Darstellung zeigt die Beziehung zwischen der Gesamtzahl der Bäume und der Gesamtzahl der gesammelten Nüsse. Es ist ersichtlich, dass es in dieser Beziehung über einen Zerfall gibt .t
Ich probiere jetzt in Stufe 2 mit und betrachte drei Schätzer. Zuerst der Schätzer unter Verhältnismäßigkeit. Zweitens erstelle ich einen Schätzer, der das bedingte Mittel von auf jeder beobachteten Ebene von als Schätzung für bei . Für das Benchmarking verwende ich erneut das bedingte Mittel von auf jeder beobachteten Ebene von als Schätzung für , jetzt jedoch für die wahre Anzahl der Bäume in Phase 2. Dieser Schätzer ist in der Praxis natürlich nicht verfügbar.p=0.5 n1 t1 n2 t^2 n1 t1 n2 t2
Für zwei Stichproben, jeweils eine aus Phase 1 bzw. 2, und die drei Schätzer I kommen zu den folgenden Verzerrungen: 5,61, -0,19 und 0,24. Weiterhin beobachten wir die folgenden quadratischen Mittelwertfehler: 15.3, 4.07, 3.32. Wir sehen, dass der bedingte Mittelwertschätzer mit einer angepassten Schätzung für die Anzahl der Bäume in Phase 2 fast so gut funktioniert wie der Schätzer unter Verwendung der unbekannten wahren Anzahl von Bäumen in Phase 2. Der verbleibende Fehler ist die Varianz, die möglicherweise etwas reduziert werden kann weiter durch Verwendung eines besseren Modells für bei als das nichtparametrische bedingte Mittelwertmodell.n1 t1
Hier ist eine Funktion, die die Daten für die von mir erstellte Simulation erstellt.
Und hier der in der Analyse verwendete Code:
quelle
In Phase 1 könnten Sie ein Modell erstellen, das das Verhalten eines Eichhörnchens mit der Gesamtzahl der Nüsse in Beziehung setzt.
In Phase 2 beobachten Sie nicht genau die gleichen vollständigen Informationen wie in Phase 1. Beispielsweise wissen Sie nicht, wie viele Bäume insgesamt von einem bestimmten Eichhörnchen verwendet werden. Sie beobachten jedoch einige Verhaltensweisen des Squirels, nämlich eine Stichprobe aus der Verteilung der Anzahl der Nüsse pro Baum. Daraus können Sie die Verteilung abschätzen und die Parameter, die die Verteilung beschreiben, können für das Modell eingegeben werden.
In Phase 1 erstellen Sie also ein Modell, das die Gesamtzahl der Nüsse, die ein Eichhörnchen speichert, mit der Verteilung der Nüsse pro Baum für das Eichhörnchen in Beziehung setzt. Wie genau dies zu modellieren ist, ist schwer zu sagen.
Wenn Sie der Meinung sind, dass Sie ein mechanistisches Modell erstellen könnten, könnten Sie mit einer explorativen Analyse und früheren Einsichten über das Verhalten von Eichhörnchen beginnen, um eine Vorstellung von einem nützlichen Modell zu erhalten. Mir fehlen die Daten und das biologische Wissen, um dies in dieser Antwort zu tun (Eine offensichtliche Richtung könnte sein, zu sehen, ob mehr Nüsse pro Baum auch insgesamt mehr Nüsse betreffen, und möglicherweise hat dies eine komplexere Beziehung zum Eichhörnchengewicht und Wange und andere Faktoren, wie eine hohe Variation der Nüsse pro Baum, können dazu beitragen, auch einen Hinweis auf die Gesamtzahl der von einem Eichhörnchen verwendeten Bäume zu erhalten.
In Phase 2 werden Sie eine Schätzung der Parameter vornehmen, die erforderlich sind, um Vorhersagen mit dem in Phase 1 erstellten Modell zu treffen. Die Parameter, die die Verteilung für die Anzahl der Nüsse pro Baum beschreiben, können aus der am gemessenen Stichprobe geschätzt werden Teilmenge der Bäume.
Eine einfache Möglichkeit wäre, die Baum-IDs zu ignorieren und einfach die Daten pro Eichhörnchen zu verwenden, um die Verteilungsparameter zu schätzen und sie ab Phase 1 in das Modell einzufügen.
Ein genaueres Modell würde die Baum-IDs als Zufallsfaktor behandeln, so dass das Verhalten, das speziell dem Eichhörnchen zugeschrieben wird, besser geschätzt werden kann. Um die Bäume als Zufallsfaktor zu behandeln, müssen Sie wissen, wie die Bäume ein Zufallsfaktor sein können. Sie können eine fundierte Vermutung anstellen, aber Sie können auch versuchen, dies aus den Daten zu lernen (ich würde sagen, zuerst mit einer explorativen Analyse, indem Sie die Korrelation zwischen einem Baum und der Anzahl der darin gespeicherten Nüsse pro Eichhörnchen überprüfen und ob dieser Effekt unabhängig ist oder ob einige Bäume eine bestimmte Art von Eichhörnchen anziehen, bevor sie sich etwas Quantitatives einfallen lassen.). In Phase 1 beobachten Sie keine Informationen zu den Baum-IDs, in Phase 2 jedoch und können diese Daten verwenden.
Also auf den Punkt gebracht. Ich denke, Sie benötigen eine explorative Analyse, bevor Sie tatsächlich etwas Quantitatives tun können, das mehr als der einfache Ansatz ist (einfach ignoriert die Baum-IDs in Phase 2 und verwendet nur einfache Verteilungsparameter als Eingabe für das Modell, dessen Koeffizienten in Phase 1 gelernt werden). .
Wie können wir außerdem teilweise gemessene Ergebnisse in das Trainingsset einbringen?
Wenn Sie das Modell in 1 erstellen, indem Sie Parameter verwenden, die die Verteilung der Nüsse pro Baum für ein bestimmtes Eichhörnchen beschreiben, müssen Sie berücksichtigen, dass es möglich sein muss, diese Zahlen in Phase 2 angemessen zu schätzen, und dass Fehler das Modell nicht beeinflussen zu viel. Zum Beispiel könnten Mittelwert und Varianz (oder andere einfache Statistiken) aus den Stichproben in Phase 2 vernünftigerweise geschätzt werden (vorausgesetzt, Ihre Stichprobe ist nicht zu klein), Momente höherer Ordnung jedoch möglicherweise nicht.
quelle