nichtlineare kleinste Quadrate gegen maximale Wahrscheinlichkeit in R, nls () oder nlm ()?

7

Ich schätze das Modell

E(Y|X)=Pr(Y=1|X)=α0+(1α0α1)ϕ(Xβ),
Dabei sind und Parameter, ist ein Längenvektor von Parametern, ist eine Datenmatrix, die abhängige Variable ist eine Binärdatei und ist ein Probit-Modell die kumulative Verteilungsfunktion der Standardnormalverteilung. Um die Erwartung abzuleiten, wurde angenommen, dass die Fehler normal sind und Null bedeuten.α0α1βpXp×nYϕ()

Die Quelle für das Modell ist hier (siehe Gleichungen 6 und 7), und gemäß der Arbeit kann ich das Modell entweder über nichtlineare kleinste Quadrate oder maximale Wahrscheinlichkeit schätzen. Ich habe beide Ansätze in R ausprobiert, wobei ich die nls()Funktion für nichtlineare kleinste Quadrate und die nlm()Funktion für maximale Wahrscheinlichkeit verwendet habe. Experimente legen nahe, dass die Ergebnisse für meine Anwendung sehr ähnlich sind, aber nls()schneller sind. Gibt es einen Grund, einen Ansatz dem anderen vorzuziehen? Wie sollte ich über die Auswahl einer Methode nachdenken, z. B. liegen beiden Ansätzen ähnliche Annahmen zugrunde?

Vorschläge zum Durchdenken der Unterschiede zwischen diesen beiden Ansätzen oder Vorschläge zur Konsultation einschlägiger Literatur wären sehr willkommen.

gfgm
quelle
Haben Sie im Hinblick auf eine schnellere Lösung sichergestellt, dass nls und nlm denselben Optimierer verwenden? Wenn Sie einen anderen Optiker verwenden, könnte dies erklären, warum einer schneller als der andere ist.
Prognostiker
Gute Frage. Ich habe das nicht überprüft - ich werde nachforschen. Geschwindigkeit ist in meiner Anwendung nicht so wichtig, dass ich für die Verwendung beider Modelle schlecht eingestellt wäre. Ich bin mehr daran interessiert zu wissen, ob es theoretische Gründe gibt, einen dem anderen vorzuziehen.
gfgm
Was für eine Variable ist y? Ist es numerisch, kategorisch, binär usw.? Was istϕ? Und was ist Ihr statistisches Modell? Was Sie geschrieben haben, ist kein Modell - es gibt keinen Fehlerbegriff. Es könnte höchstens ein Ausdruck für das bedingte Mittel von seiny in Gedenken an x. Wennyist eine kontinuierliche Zufallsvariable und Sie nehmen additive iid-Gauß-Fehler mit einem Mittelwert von Null und einer konstanten Varianz an, dann sind der NLS-Schätzer und der MLE-Schätzer gleich.
DeltaIV
Danke @DeltaIV, ich habe den Beitrag bearbeitet, um ihn klarer zu machen. Es ist ein Ausdruck des bedingten Mittelwerts von y in Bezug auf x, wie Sie vermutet haben, und y ist binär.
gfgm

Antworten:

6

Um die Erwartung abzuleiten, wurde angenommen, dass die Fehler normal sind und Null bedeuten.

Wenn dies Ihre Annahme ist, sollten MLE und NLS mathematisch identisch sein, und Unterschiede würden wahrscheinlich durch die Auswahl / Einstellung des Optimierers erklärt.

Ob eine Normalverteilung für eine binäre Antwort eine gute Idee ist, ist eine andere Frage. Eine Alternative wäre eine logistische Glm mit Ihrem nichtlinearen Prädiktor, geschätzt mit MLE.

Wenn Sie MLE ausführen , sollten Sie https://cran.r-project.org/web/packages/bbmle/index.html anstelle von nlm (), mehr Optionen für CIs usw. verwenden.

Florian Hartig
quelle