Warum Bayesglm verwenden?

8

Meine allgemeine Frage lautet: Warum bayesglmanstelle anderer Klassifizierungsmethoden verwenden?

Hinweis:

  1. Ich interessiere mich nur für Vorhersage.
  2. Ich habe eine anständige Datenmenge (~ 100.000 obs).

Ich bin der Meinung, dass die Stichprobengröße groß genug ist, um die Parameter einer regulären logistischen Regression normal zu verteilen (CLT). Was würde ich durch die Angabe von Prioritäten gewinnen? Meine Vermutung ist, dass es nur für einen kleinen Datensatz von Bedeutung ist, aber ich habe keine theoretischen oder angewandten Beweise.

wcampbell
quelle
4
Ihre Intuition über die Beziehung zwischen Stichprobengröße und Prioritäten ist korrekt. Andererseits kann die Bayes'sche logistische Regression das Problem unendlicher Parameterschätzungen lösen, die sich aus einer perfekten Trennung ergeben.
Sycorax sagt Reinstate Monica
1
Die logistische Regression ist kein Klassifizierungsalgorithmus. Es ist ein Wahrscheinlichkeitsvorhersagealgorithmus.
Dreistes Gleichgewicht
1
Was Sycorax erwähnt, ist einer der wichtigsten Gründe, warum Sie ein Bayes'sches Modell in einer Umgebung mit großen Stichproben verwenden möchten. Wenn Ihre logistische Regression viele Prädiktoren enthält, insbesondere Prädiktoren mit geringer Varianz, sollten Sie Prioritäten über die Regressionskoeffizienten ziehen.
Dreistes Gleichgewicht

Antworten:

8

Sowohl im Ingenieurwesen als auch im Risikomanagement der Lieferkette kann "Ingenieurwissen" - wie eine gebildete Person am besten erraten - die besten Daten sein, die Sie haben. Zum Beispiel kann die Wahrscheinlichkeit, dass ein Tsunami auftritt und die Lieferkette ohne zusätzliche Daten stört, von einem Experten auf diesem Gebiet geschätzt werden (es gibt bessere Methoden zur Konstruktion von Prioritäten). Im Laufe der Zeit treten Tsunamis auf, und als Ergebnis erhalten wir mehr Daten und können unsere Priors (technisches Wissen) mit Posteriors (Priors, angepasst an neue Daten) aktualisieren. Irgendwann wird es so viele Daten geben, dass der anfängliche Prior irrelevant ist, und unabhängig davon, wer die Vorhersage gemacht hat, haben Sie gleiche Vorhersagen der Wahrscheinlichkeit.

Ich bin der Meinung, dass bei so vielen Daten ein "traditioneller" frequentistischer Ansatz (normalerweise) dem Bayes'schen Ansatz vorzuziehen ist (natürlich werden andere anderer Meinung sein, insbesondere wenn sie zwischen statistischen Philosophien wählen, anstatt sich an eine zu halten und eine geeignete Methode auszuwählen ). Beachten Sie, dass es durchaus möglich ist (und häufig vorkommt), dass der Frequentist-Ansatz ähnliche / identische Ergebnisse wie der Bayes'sche liefert.

Das heißt, wenn der Unterschied in den Methoden eine Codezeile ist, warum nicht mehrere Methoden implementieren und die Ergebnisse selbst vergleichen?

TLJ
quelle
Vielen Dank! Gute Erklärung einiger Aspekte des Bayes'schen Denkens - etwas, mit dem ich nicht sehr vertraut bin.
Wcampbell