Ich benutze Pythons Scikit-Learn, um eine logistische Regression zu trainieren und zu testen.
scikit-learn gibt die Regressionskoeffizienten der unabhängigen Variablen zurück, liefert jedoch nicht die Standardfehler der Koeffizienten. Ich benötige diese Standardfehler, um eine Wald-Statistik für jeden Koeffizienten zu berechnen und diese Koeffizienten miteinander zu vergleichen.
Ich habe eine Beschreibung gefunden, wie man Standardfehler für die Koeffizienten einer logistischen Regression berechnet ( hier ), aber es ist etwas schwierig zu folgen.
Wenn Sie eine einfache, prägnante Erklärung zur Berechnung dieser Standardfehler kennen und / oder mir eine geben können, wäre ich Ihnen sehr dankbar! Ich meine nicht spezifischen Code (obwohl Sie gerne jeden Code posten, der hilfreich sein könnte), sondern eine algorithmische Erklärung der beteiligten Schritte.
Antworten:
Gibt Ihre Software eine Parameterkovarianz (oder Varianz-Kovarianz) -Matrix an? Wenn ja, sind die Standardfehler die Quadratwurzel der Diagonale dieser Matrix. Sie möchten wahrscheinlich ein Lehrbuch (oder Google für Vorlesungsunterlagen der Universität) zu Rate ziehen, um die Matrix für lineare und verallgemeinerte lineare Modelle zu erhalten.Vβ
quelle
Die Standardfehler der Modellkoeffizienten sind die Quadratwurzeln der Diagonaleinträge der Kovarianzmatrix. Folgendes berücksichtigen:
, wobei x i , j der Wert der ist j Prädiktor für die i- ten Beobachtungen.X = ⎡⎣⎢⎢⎢⎢⎢11⋮1x1,1x2,1⋮xn,1……⋱…x1,px2,p⋮xn,p⎤⎦⎥⎥⎥⎥⎥ xi,j j i
(HINWEIS: Dies setzt ein Modell mit einem Achsenabschnitt voraus.)
Die Kovarianzmatrix kann wie folgt geschrieben werden:
Dies kann mit dem folgenden Code implementiert werden:
Alles, was gesagt wird,
statsmodels
wird wahrscheinlich ein besseres Paket sein, wenn Sie Zugriff auf eine Menge "out-of-the-box" -Diagnosen wünschen.quelle
V = np.product(predProbs, axis=1);
covLogit = np.linalg.pinv(np.dot(X_design.T * V), X_design)
Wenn Sie Schlüsse ziehen möchten, sollten Sie sich wahrscheinlich die Statistikmodelle ansehen . Standardfehler und allgemeine statistische Tests sind verfügbar. Hier ist ein Beispiel für eine logistische Regression .
quelle