Was ist der Hauptunterschied zwischen der Schätzung der maximalen Wahrscheinlichkeit (MLE) und der Schätzung der kleinsten Quadrate (LSE)?
Warum können wir MLE nicht zur Vorhersage von Werten in der linearen Regression und umgekehrt verwenden?
Jede Hilfe zu diesem Thema wird sehr geschätzt.
Antworten:
Ich möchte eine unkomplizierte Antwort geben.
Wie @TrynnaDoStat ausführte, entspricht die Minimierung des quadratischen Fehlers in diesem Fall der Maximierung der Wahrscheinlichkeit. Wie in Wikipedia gesagt ,
sie können in Ihrem Fall als gleich angesehen werden,
Lassen Sie mich das etwas genauer erläutern. Da wir wissen, dass die Antwortvariable ( ) ein normales Fehlerverteilungsmodell hat, ist die Wahrscheinlichkeitsfunktion Maximieren von L entspricht offensichtlich dem Minimieren von Das ist die Methode der kleinsten Quadrate.y Yi=λ1Xi+λ2+ϵi where ϵ∼N(0,σ2)
L(Y1,…,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(−12σ2(∑i=1n(Yi−λ1Xi−λ2)2)) ∑i=1n(Yi−λ1Xi−λ2)2
Wie oben erläutert, verwenden wir (genauer gesagt) die MLE zur Vorhersage von Werten. Und wenn die Antwortvariable eine willkürliche Verteilung anstelle einer normalen Verteilung aufweist, wie beispielsweise eine Bernoulli-Verteilung oder eine Verteilung aus der Exponentialfamilie, ordnen wir den linearen Prädiktor der Antwortvariablenverteilung unter Verwendung einer Verknüpfungsfunktion (gemäß der Antwortverteilung) zu, dann wird die Wahrscheinlichkeitsfunktion das Produkt aller Ergebnisse (Wahrscheinlichkeiten zwischen 0 und 1) nach der Transformation. Wir können die Verknüpfungsfunktion im linearen Regress als Identitätsfunktion behandeln (da die Antwort bereits eine Wahrscheinlichkeit ist).y
quelle
ML ist eine höhere Menge von Schätzern, die die kleinsten absoluten Abweichungen ( -Norm) und die kleinsten Quadrate ( -Norm) enthält. Unter der Haube von ML teilen die Schätzer eine Vielzahl gemeinsamer Eigenschaften wie den (leider) nicht existierenden Knickpunkt. Tatsächlich können Sie den ML-Ansatz als Ersatz verwenden, um viele Dinge, einschließlich OLS, zu optimieren, solange Sie wissen, was Sie tun.L1 L2
Professionelle Anwendungen passen nicht nur auf Daten, sondern prüfen:
Es gibt auch eine Vielzahl von speziellen statistischen Tests für Hypothesen. Dies gilt nicht für alle ML-Schätzer oder sollte zumindest mit einem Nachweis angegeben werden.
Ein weiterer profaner Punkt ist, dass sehr einfach zu implementieren ist und auf Bayes'sche Regularisierung oder andere Algorithmen wie Levenberg-Marquard erweitert werden kann.L2
Nicht zu vergessen: Leistung. Nicht alle Kleinste-Quadrate-Fälle wie Gauß-Markov ergeben symmetrische positive definitive Normalgleichungen . Deshalb benutze ich für jede -Norm eine eigene Bibliothek . Für diesen bestimmten Fall können spezielle Optimierungen durchgeführt werden.Xβ=L+r (XTX)−1 L2
Fühlen Sie sich frei, um Details zu fragen.
quelle