Angenommen, ich habe drei Datensätze der Größe :
= Größe von Menschen nur aus den USA
= Körpergröße von Männern aus der ganzen Welt
= von Frauen aus der ganzen Welt
Und ich baue für jedes ein lineares Modell mit den Faktoren , :
mit mit den üblichen Eigenschaften für OLS. Und ich kann einen Faktor in mehr als einer Regression verwenden.
Meine Frage ist: Wie könnte ich die Regressionen so kombinieren, dass ich Schätzungen erhalten kann für:
= Größe der Männer nur aus den USA
= Größe von Frauen nur aus den USA
für die ich keine Daten habe
Ich dachte vielleicht an eine Art Gewichtung:
aber dann würde ich nicht wissen, was ich für .
height ~ f1 + f2 + f3 + (1 | sex)
im R-Paketlmer
Antworten:
Es ist nicht klar, ob Sie Schätzungen der Körpergröße für jeden einzelnen Mann und jede einzelne Frau wünschen (eher ein Klassifizierungsproblem) oder die Höhenverteilung jedes Geschlechts charakterisieren möchten. Letzteres werde ich annehmen. Sie geben auch nicht an, welche zusätzlichen Informationen Sie in Ihrem Modell verwenden, daher beschränke ich mich darauf, den Fall zu behandeln, in dem Sie nur über Höhendaten (und Geschlechtsdaten bei Nicht-US-Bürgern) verfügen.
Ich empfehle, nur eine Mischung von Verteilungen an die Höhendaten aus den USA anzupassen , da die Höhenverteilungen bei Männern und Frauen ziemlich unterschiedlich sind. Dies würde die Parameter von zwei Verteilungen schätzen, die, wenn sie summiert werden, die Variation in den Daten am besten beschreiben. Die Parameter dieser Verteilungen (Mittelwert und Varianz, da eine Gaußsche Verteilung gut funktionieren sollte) geben Ihnen die Informationen, nach denen Sie suchen. Die R-Pakete
mixtools
undmixdist
lassen Sie dies tun; Ich bin mir sicher, dass es noch viel mehr gibt.Diese Lösung mag seltsam erscheinen, da sie alle Informationen von außerhalb der USA auslässt, bei denen Sie das Geschlecht und die Größe jedes Einzelnen kennen. Aber ich denke, es ist gerechtfertigt, weil:
1) Wir haben eine sehr starke vorherige Erwartung, dass Männer im Durchschnitt größer sind als Frauen. Die Wikipedia- Liste der durchschnittlichen menschlichen Körpergröße weltweit zeigt nicht einmal ein Land oder eine Region, in der Frauen größer sind als Männer. Die Identität der Verteilung mit der größeren mittleren Höhe ist also nicht wirklich zweifelhaft.
2) Die Integration spezifischerer Informationen aus den Daten außerhalb der USA wird wahrscheinlich die Annahme beinhalten, dass die Kovarianz zwischen Geschlecht und Größe außerhalb der USA dieselbe ist wie innerhalb. Dies ist jedoch nicht ganz richtig - dieselbe Wikipedia-Liste zeigt, dass das Verhältnis von männlicher zu weiblicher Größe zwischen ungefähr 1,04 und 1,13 variiert.
3) Ihre internationalen Daten sind möglicherweise viel komplizierter zu analysieren, da Menschen in verschiedenen Ländern ebenfalls große Unterschiede in der Höhenverteilung aufweisen. Möglicherweise müssen Sie daher in Betracht ziehen, Mischungen von Verteilungsmischungen zu modellieren. Dies mag auch in den USA zutreffen, ist jedoch wahrscheinlich weniger problematisch als ein Datensatz, der niederländische (mittlere Größe: 184 cm) und indonesische (mittlere Größe: 158 cm) umfasst. Und das sind Durchschnittswerte auf Länderebene. Subpopulationen unterscheiden sich in gleichem Maße.
quelle