Ich versuche einige Artikel von Mark van der Laan zu verstehen. Er ist ein theoretischer Statistiker in Berkeley, der an Problemen arbeitet, die sich erheblich mit maschinellem Lernen überschneiden. Ein Problem für mich (neben der tiefen Mathematik) ist, dass er häufig bekannte Ansätze des maschinellen Lernens mit einer völlig anderen Terminologie beschreibt. Eines seiner Hauptkonzepte ist "Targeted Maximum Likelihood Expectation".
TMLE wird verwendet, um zensierte Beobachtungsdaten aus einem nicht kontrollierten Experiment auf eine Weise zu analysieren, die eine Effektschätzung auch bei Vorhandensein von Störfaktoren ermöglicht. Ich bin der festen Überzeugung, dass viele der gleichen Konzepte unter anderen Namen in anderen Bereichen existieren, aber ich verstehe sie noch nicht gut genug, um sie direkt auf irgendetwas abzustimmen.
Ein Versuch, die Lücke zu "Computational Data Analysis" zu schließen, ist hier:
Und eine Einführung für Statistiker gibt es hier:
Gezielte Maximum Likelihood Based Causal Inference: Teil I
Ab dem zweiten:
In diesem Artikel entwickeln wir einen bestimmten zielgerichteten Maximum-Likelihood-Schätzer für die kausalen Auswirkungen mehrerer Zeitpunktinterventionen. Dies beinhaltet die Verwendung von verlustbasiertem Superlernen, um eine anfängliche Schätzung der unbekannten Faktoren der G-Berechnungsformel zu erhalten, und anschließend die Anwendung einer zielparameterspezifischen optimalen Fluktuationsfunktion (ungünstigstes parametrisches Submodell) auf jeden geschätzten Faktor. Schätzen der Schwankungsparameter mit maximaler Wahrscheinlichkeitsschätzung und Iterieren dieses Aktualisierungsschritts des Anfangsfaktors bis zur Konvergenz. Dieser iterative Aktualisierungsschritt für die angestrebte maximale Wahrscheinlichkeit macht den resultierenden Schätzer des Kausaleffekts doppelt robust in dem Sinne, dass er konsistent ist, wenn einer der anfänglichen Schätzer konsistent ist. oder der Schätzer der optimalen Fluktuationsfunktion ist konsistent. Die optimale Fluktuationsfunktion ist korrekt spezifiziert, wenn die bedingten Verteilungen der Knoten in dem Kausalgraphen, auf den eingegriffen wird, korrekt spezifiziert sind.
In seiner Terminologie ist "Superlernen" das Lernen eines Ensembles mit einem theoretisch soliden, nicht negativen Gewichtungsschema. Was aber meint er mit "Anwenden einer zielparameterspezifischen optimalen Fluktuationsfunktion (ungünstigstes parametrisches Submodell) auf jeden geschätzten Faktor"?
Oder in drei verschiedene Fragen unterteilt: Hat TMLE eine Parallele im maschinellen Lernen, was ist ein "ungünstigstes parametrisches Submodell" und was ist eine "Fluktuationsfunktion" in anderen Bereichen?
Antworten:
Ich stimme zu, dass van der Laan die Tendenz hat, neue Namen für bereits vorhandene Ideen zu erfinden (z. B. für den Superschüler), aber TMLE gehört meines Wissens nicht dazu. Es ist eigentlich eine sehr clevere Idee, und ich habe nichts in der Community für maschinelles Lernen gesehen, das ähnlich aussieht (obwohl ich vielleicht nur unwissend bin). Die Ideen stammen aus der Theorie semiparametrisch effizienter Schätzungsgleichungen, über die Statistiker meiner Meinung nach viel mehr nachdenken als über ML-Leute.
Die Idee ist im Wesentlichen dies. Angenommen, ist ein wahrer Datenerzeugungsmechanismus und es besteht ein Interesse an einer bestimmten Funktion Ψ ( P 0 ) . Mit einer solchen Funktion ist oft eine Schätzgleichung verbundenP0 Ψ(P0)
wobei ist , in irgendeiner Weise bestimmt durch P , und enthält genügend Informationen zu identifizieren Ψ . φ wird , so dass E P φ ( Y | & thgr; ) = 0 . Das Lösen dieser Gleichung in θ kann zum Beispiel viel einfacher sein als das Abschätzen von P 0 . Diese Schätzgleichung ist effizient in dem Sinne , dass jeder effizienter Schätzer von Ψ ( P 0 ) zu einem asymptotisch äquivalent ist , die diese Gleichung löst.θ=θ(P) P Ψ φ EPφ(Y∣θ)=0 θ P0 Ψ(P0) (Anmerkung: Ich bin ein bisschen locker mit dem Begriff "effizient", da ich nur die Heuristik beschreibe.) Die Theorie hinter solchen Schätzungsgleichungen ist recht elegant, wobei dieses Buch die kanonische Referenz ist. Hier könnte man Standarddefinitionen von "ungünstigsten Untermodellen" finden; das sind keine Begriffe, die van der Laan erfunden hat.
und so weiter, bis wir etwas im Grenzbereich haben, das die effiziente Schätzgleichung erfüllt.
quelle