Feldbewusste Faktorisierungsmaschinen

Antworten:

2

Es scheint, als würden Sie nach einer allgemeinen Beschreibung fragen. Wenn Sie sich auf die Folien beziehen, die in den Folien Ihres ursprünglichen Beitrags verlinkt sind, gibt es einen Vergleich zwischen FM (Folie 11) und FFM (Folie 12).

Wenn Sie beispielsweise etwas über Benutzer und Filme lernen, hat FM möglicherweise den folgenden Faktor:

w_{user_1}*w_{movie_1}*... + w{user_1}*w_{genre_1}*...

FFM hätte:

w_{user_1, movies}*w_{movie_1, users}*... + w{user_1, genres}*w_{genre_1, users}*...

Der Hauptunterschied besteht darin, dass in FM der w_{user_1}Koeffizient in beiden Begriffen gleich ist - es gibt eine einzige Vorstellung des Benutzers. In FFM lernen Sie eine separatew_{user_1} für jeden Kontext , z. B. ob es sich um die Interaktion mit Filmen oder Genres handelt. Beachten Sie, dass es nicht für jeden Film oder jedes Genre separat gelernt wird, sondern allgemein für Filme und Genres. Das heißt, es lernt separat den Kontext des Benutzers für jede Art von Interaktion.

Beachten Sie auch, dass w_{movie_1}, w_{movie_1, users}seit dieser Begriff mit w_{user_1}einem Benutzer interagiert .

ZakJ
quelle
2

Angenommen, Sie haben (vor der One-Hot-Codierung) Prädiktoren / Felder aus einem Satz ( z . B. Filmgenre, Geschlecht des Benutzers und Benutzerrasse). Angenommen, jeder Prädiktor z Z kann einen von k z Werten annehmen . Nach der One-Hot-Codierung erhalten Sie einen neuen Satz von Binärmerkmalen X der Größe K : = z Z k zZ.zZ.kzX.K.: =zZ.kz .

In einem Modell mit allen Wechselwirkungen müssen Sie eine Matrix von Wechselwirkungskoeffizienten mit K × ( K + 1 ) schätzen.Q. eindeutige Terme enthält.K×(K+1)/2

Die Faktorisierungsmaschine strukturiert die Matrix und nimmt an, dass Q W T W ist , wobei W die Dimension l × K hat , wobei 1 l K eine vom Benutzer angegebene Zahl ist. Wir schätzen , W anstelle von Q .QQWTWWl×K1lK.W.Q.

Das Feld bewusst Faktorisierung Maschine legt Struktur auf als auch. Es unterteilt Q in Blöcke basierend auf z (den ursprünglichen Merkmalen). Wenn q z i , z j den z i , z j -Block von Q bezeichnet , nehmen wir an, dass q z i , z j aus dem z i , z j -Block von W T j W i stammt , wobei W i die Dimension l hat ×Q.Q.zqzich,zjzich,zjQ.qzich,zjzich,zjW.jT.W.ichW.ichl×K.W.ichQ.

Q.K.×lK.×l×|Z.|K.×(K.+1)/.2 Parameter.

kalu
quelle
1

Standardfaktorisierungsmaschinen haben auch Felder. Die "Neuheit" hier scheint die Verwendung von GBDT-Funktionen und die Anwendung der Hashing-Tricks zu sein. Es scheint nicht sehr effektiv zu sein: Überprüfen Sie den Minutenbereich der Leistung auf der letzten Folie.

Emre
quelle
According to the authors, there is indeed a field aware characteristic to the model, relative to the standard implementation - it is stated in the kaggle forums. I was just not able to follow what it meant and what the difference actually was.
B_Miner
Based on slie 14, it appears that they based their solution on this paper (Ensemble of Collaborative Filtering and Feature Engineered Models for Click Through Rate Prediction).
Emre