Vor kurzem habe ich angefangen, maschinelles Lernen zu studieren, aber ich habe die Intuition hinter der logistischen Regression nicht verstanden .
Das Folgende sind die Fakten zur logistischen Regression, die ich verstehe.
Als Grundlage für die Hypothese verwenden wir die Sigmoidfunktion . Ich verstehe, warum es eine richtige Wahl ist, aber warum es die einzige Wahl ist, die ich nicht verstehe. Die Hypothese stellt die Wahrscheinlichkeit dar, dass die entsprechende Ausgabe , daher sollte der Bereich unserer Funktion . Dies ist die einzige Eigenschaft der Sigmoidfunktion, die ich hier für nützlich und angemessen befunden habe, jedoch erfüllen viele Funktionen diese Eigenschaft. Außerdem hat die Sigmoidfunktion eine Ableitung in dieser Form , aber ich sehe den Nutzen dieser speziellen Form in der logistischen Regression nicht.[ 0 , 1 ] f ( x ) ( 1 - f ( x ) )
Frage : Was ist das Besondere an der Sigmoid-Funktion und warum können wir mit domain keine andere Funktion verwenden ?
Die Kostenfunktion besteht aus zwei Parametern , wenn wenn . In der gleichen Weise wie oben verstehe ich, warum es richtig ist, aber warum ist es die einzige Form? Zum Beispiel, warum konnteeine gute Wahl für die Kostenfunktion sein?
Frage : Was ist das Besondere an der obigen Form der Kostenfunktion? Warum können wir kein anderes Formular verwenden?
Ich würde mich freuen, wenn Sie uns Ihr Verständnis der logistischen Regression mitteilen könnten.
quelle
Antworten:
Das logistische Regressionsmodell ist die maximale Wahrscheinlichkeit, mit der der natürliche Parameter (das Log-Odds-Verhältnis) verwendet wird, um die relativen Änderungen des Risikos des Ergebnisses pro Einheitsdifferenz im Prädiktor gegenüberzustellen. Dies setzt natürlich ein Binomialwahrscheinlichkeitsmodell für das Ergebnis voraus. Dies bedeutet, dass die Konsistenz- und Robustheitseigenschaften der logistischen Regression sich direkt von der maximalen Wahrscheinlichkeit erstrecken: robust bis fehlend bei zufälligen Daten, Root-n-Konsistenz und Existenz und Eindeutigkeit von Lösungen zur Schätzung von Gleichungen. Dies setzt voraus, dass sich die Lösungen nicht an den Grenzen des Parameterraums befinden (wobei die logarithmischen Quotenverhältnisse betragen ). Da die logistische Regression die maximale Wahrscheinlichkeit darstellt, hängt die Verlustfunktion mit der Wahrscheinlichkeit zusammen, da es sich um äquivalente Optimierungsprobleme handelt.±∞
Bei der Quasilikelihood oder der Schätzung von Gleichungen (semiparametrische Inferenz) bleiben die Existenz- und Eindeutigkeitseigenschaften erhalten, aber die Annahme, dass das mittlere Modell gilt, ist nicht relevant, und die Inferenz und die Standardfehler sind unabhängig von der Modellfehlspezifikation konsistent. In diesem Fall geht es also nicht darum, ob das Sigma die richtige Funktion ist, sondern darum, ob wir an einen Trend glauben können, der durch Parameter parametrisiert wird, die erweiterbar interpretiert werden können.
Das Sigma ist jedoch nicht die einzige solche binäre Modellierungsfunktion. Die am häufigsten kontrastierte Probit-Funktion hat ähnliche Eigenschaften. Log-Odds-Verhältnisse werden nicht geschätzt, aber funktional sehen sie sehr ähnlich aus und geben tendenziell sehr ähnliche Annäherungen an genau dasselbe . Auch in der mittleren Modellfunktion müssen keine Boundness-Eigenschaften verwendet werden. Die einfache Verwendung einer logarithmischen Kurve mit einer Binomialvarianzfunktion ergibt eine relative Risikorückbildung, eine Identitätsverknüpfung mit der Binomialvarianz ergibt additive Risikomodelle. All dies wird vom Benutzer bestimmt. Die Popularität der logistischen Regression ist leider der Grund, warum sie so häufig verwendet wird. Ich habe jedoch meine Gründe (die, die ich angegeben habe), warum ich denke, dass es für die Verwendung unter den meisten Umständen der binären Ergebnismodellierung gut gerechtfertigt ist.
In der Inferenzwelt kann die Odds Ratio für seltene Ergebnisse grob als "relatives Risiko" interpretiert werden, dh als "prozentuale relative Änderung des Risikos eines Ergebnisses im Vergleich von X + 1 zu X". Dies ist nicht immer der Fall und im Allgemeinen kann und sollte eine Odds Ratio nicht als solche interpretiert werden. Es ist jedoch ein wichtiger Punkt, dass die Parameter interpretiert werden können und leicht an andere Forscher weitergegeben werden können, was in den didaktischen Materialien der Maschinell-Lernenden leider fehlt.
Das logistische Regressionsmodell bietet auch die konzeptionellen Grundlagen für komplexere Ansätze wie hierarchische Modellierung sowie gemischte Ansätze für Modellierung und bedingte Wahrscheinlichkeit, die für eine exponentiell wachsende Anzahl von Störparametern konsistent und robust sind. GLMMs und bedingte logistische Regression sind sehr wichtige Konzepte in der hochdimensionalen Statistik.
quelle
quelle