Beste Methode zum Erstellen von Wachstumsdiagrammen

10

Ich muss Diagramme (ähnlich wie Wachstumsdiagramme) für Kinder im Alter von 5 bis 15 Jahren (nur 5,6,7 usw .; es gibt keine Bruchwerte wie 2,6 Jahre) für eine Gesundheitsvariable erstellen, die nicht negativ, kontinuierlich und in ist der Bereich von 50-150 (mit nur wenigen Werten außerhalb dieses Bereichs). Ich muss 90., 95. und 99. Perzentilkurven erstellen und auch Tabellen für diese Perzentile erstellen. Die Stichprobengröße beträgt ca. 8000.

Ich habe folgende Möglichkeiten geprüft und gefunden:

  1. Finden Sie Quantile und verwenden Sie dann die Lössmethode, um aus diesen Quantilen eine glatte Kurve zu erhalten. Der Grad der Glätte kann über den Parameter 'span' eingestellt werden.

  2. Verwenden Sie die LMS-Methode (Lambda-Mu-Sigma) (z. B. Gamlss- oder VGAM-Pakete in R).

  3. Verwenden Sie die Quantilregression.

  4. Verwenden Sie Mittelwert und SD jeder Altersgruppe, um das Perzentil für dieses Alter zu schätzen und Perzentilkurven zu erstellen.

Was ist der beste Weg, um es zu tun? Mit "am besten" meine ich entweder die ideale Methode, die die Standardmethode für die Erstellung solcher Wachstumskurven ist und für alle akzeptabel wäre. Oder eine einfacher und einfacher zu implementierende Methode, die einige Einschränkungen aufweisen kann, aber eine akzeptable, schnellere Methode ist. (Zum Beispiel ist die Verwendung von Löss für Perzentilwerte viel schneller als die Verwendung von LMS des gamlss-Pakets).

Auch was wird der grundlegende R-Code für diese Methode sein.

Danke für Ihre Hilfe.

rnso
quelle
2
Sie fragen nach dem "Besten", was normalerweise zwischen schwierig und unmöglich definitiv zu diskutieren ist. (Das "beste" Maß für das Niveau ist schwierig genug.) Sie haben Ihre Frage eindeutig mit gesundheitlichen Veränderungen bei Kindern verknüpft, aber Ihre Kriterien für das "beste" sind nicht explizit, insbesondere welche Arten oder Grade der Glätte akzeptabel oder inakzeptabel sind.
Nick Cox
Ich begrüße den Versuch, aber a) existiert offensichtlich nicht, sonst warum gibt es konkurrierende Lösungen oder warum ist dies in der Literatur, die Sie lesen, nicht offensichtlich? Das Interesse an diesem Problem ist sicherlich Jahrzehnte, wenn nicht Jahrhunderte alt. Einfacher bedeutet: leichter zu verstehen, Medizinern oder nicht statistisch denkenden Fachleuten im Allgemeinen leichter zu erklären, leichter umzusetzen, ...? Ich bin ohne Zweifel wählerisch, aber warum sollten Sie sich hier für Geschwindigkeit interessieren? Keine dieser Methoden ist rechenintensiv.
Nick Cox
@ NickCox: Ich habe die Frage gemäß Ihren Kommentaren bearbeitet. Ich werde eine echte Antwort schätzen.
Rnso
1
Entschuldigung, aber ich arbeite nicht in diesem Bereich und ich denke, Ihre Frage ist zu schwer zu beantworten. Kommentare existieren, weil Menschen möglicherweise nicht in der Lage oder nicht bereit sind zu antworten, aber dennoch etwas zu sagen haben. Ich schreibe keine Antworten auf Bestellung.
Nick Cox

Antworten:

6

Es gibt eine große Literatur zu Wachstumskurven. In meinen Augen gibt es drei "Top" -Ansätze. In allen drei Fällen wird die Zeit als eingeschränkter kubischer Spline mit einer ausreichenden Anzahl von Knoten (z. B. 6) modelliert. Dies ist ein parametrischer Glätter mit hervorragender Leistung und einfacher Interpretation.

  1. Klassische Wachstumskurvenmodelle (verallgemeinerte kleinste Quadrate) für Längsschnittdaten mit einem vernünftigen Korrelationsmuster wie zeitkontinuierlichem AR1. Wenn Sie zeigen können, dass Residuen Gauß'sch sind, können Sie MLEs der Quantile unter Verwendung der geschätzten Mittelwerte und der gemeinsamen Standardabweichung erhalten.
  2. Quantile Regression. Dies ist für nicht große nicht effizient . Obwohl die Genauigkeit nicht optimal ist, trifft die Methode nur minimale Annahmen (da Schätzungen für ein Quantil nicht mit Schätzungen eines anderen Quantils verbunden sind) und ist unvoreingenommen.n
  3. Ordinale Regression. Dies behandelt kontinuierliches als Ordnungszahl, um robust zu sein, wobei semiparametrische Modelle wie das Proportional-Odds-Modell verwendet werden. Aus Ordnungsmodellen können Sie den Mittelwert und alle Quantile abschätzen, letztere nur, wenn stetig ist.Y.YY
Frank Harrell
quelle
Wie haben Sie die PO-Annahme (vorausgesetzt, sie ist fehlgeschlagen) mit so vielen Ebenen des Ergebnisses berücksichtigt, wenn Sie proportionale Quoten verwendet haben? Vielen Dank.
3.
2
Selbst wenn dies fehlschlägt, kann das Modell aufgrund insgesamt weniger Annahmen eine bessere Leistung als einige der anderen Modelle erbringen. Oder wechseln Sie zu einer der anderen Ordnungsmodelle der kumulativen Wahrscheinlichkeitsfamilie, z. B. proportionale Gefahren (log-log kumulative Wahrscheinlichkeitsverknüpfung).
Frank Harrell
1

Gaußsche Prozessregression . Beginnen Sie mit dem quadratischen exponentiellen Kernel und versuchen Sie, die Parameter mit dem Auge abzustimmen. Wenn Sie später die Dinge richtig machen möchten, experimentieren Sie mit verschiedenen Kerneln und verwenden Sie die marginale Wahrscheinlichkeit, um die Parameter zu optimieren.

Wenn Sie mehr Details wünschen, als das oben verlinkte Tutorial bietet, ist dieses Buch großartig .

Andy Jones
quelle
Danke für deine Antwort. Wie bewerten Sie die Gaußsche Prozessregression im Vergleich zu anderen genannten Methoden? Der zweite Gaußsche Plot auf scikit-learn.org/0.11/auto_examples/gaussian_process/… scheint dem vorletzten Plot auf dieser Seite von LOESS (lokale Regression) sehr ähnlich zu sein: princeofslides.blogspot.in/2011/05/… . LOESS ist viel einfacher durchzuführen.
Rnso
Persönlich bevorzuge ich GPR für jeden Datensatz, der klein genug ist, damit Sie ihn anpassen können. Es ist nicht nur aus theoretischer Sicht viel "schöner", sondern auch flexibler, robuster und liefert eine gut kalibrierte probabilistische Ausgabe. Wenn Ihre Daten jedoch dicht sind und sich gut verhalten, kann Ihr Publikum den Unterschied zwischen LOESS und einem GPR wahrscheinlich nur erkennen, wenn es sich um Statistiker handelt.
Andy Jones
3
Ich kann nicht sehen, dass diese Antwort die spezifischen Merkmale des Wunsches nach Perzentilkurven anspricht. Die Frage ist nachdrücklich nicht, was ein guter Weg ist, um als Funktion von zu glätten . xyx
Nick Cox
1
@Nick: Mein beabsichtigter Rat war, ein Modell Ihrer Daten zu erstellen und dann das Modell zum Erstellen der (glatten) Perzentilkurven zu verwenden. Jetzt hast du es erwähnt, ja, ich habe die zweite Komponente (dh die eigentliche Frage) komplett verpasst.
Andy Jones
1
Die Verwendung von zur Festlegung solcher Grenzwerte ist eine sehr starke Annahme (basierend auf der Normalität), dass tatsächlich durch Wachstumskurven verletzt werden kann. 1.96
whuber