Bedeutung latenter Merkmale?

15

Ich versuche, Matrixfaktorisierungsmodelle für Empfehlungssysteme zu verstehen und lese immer "latente Merkmale", aber was bedeutet das? Ich weiß, was eine Funktion für einen Trainingsdatensatz bedeutet, kann aber die Idee latenter Funktionen nicht verstehen. Jedes Papier zu dem Thema, das ich finden kann, ist einfach zu flach.

Bearbeiten:

wenn Sie mir wenigstens einige Papiere zeigen können, die die Idee erklären.

Jack Twain
quelle
Hier ist ein einfaches Beispiel, das Ihnen helfen könnte: quuxlabs.com/blog/2010/09/…
Akavall

Antworten:

9

Latent bedeutet nicht direkt beobachtbar. Die gebräuchliche Verwendung des Begriffs in der PCA- und Faktoranalyse besteht darin, die Dimension einer großen Anzahl direkt beobachtbarer Merkmale in eine kleinere Menge indirekt beobachtbarer Merkmale zu reduzieren.

samthebest
quelle
Sind also die reduzierten Dimensionen die latenten Merkmale? Im Fall von PCA sind die Eigenvektoren der Kovarianzmatrix, dh die Hauptkomponenten, richtig?
Jack Twain
Korrigieren Sie @AlexTwain
samthebest
Können Sie mir ein Tutorial / einen Artikel zur Verfügung stellen, in dem das erwähnt wird? Ich kann kein systematisches Tutorial / Paper finden!
Jack Twain
Nun , die Wiki - Seite ist ziemlich gut, können Sie die Referenzen folgen dort , wenn Sie wirklich wollen en.wikipedia.org/wiki/Latent_variable
samthebest
1
@JackTwain Die richtige PCA-Analogie ist, dass die latenten Merkmale die Eigenvektoren sind. Die Hauptkomponenten sind die jeder Beobachtung zugewiesenen Gewichte für die Haupteigenvektoren. In anderen Matrixfaktorisierungsmodellen spielen die latenten Merkmale die Rolle der Eigenvektoren. Das mag pedantisch klingen, aber der Fehler schafft kein Ende der Verwirrung für die Menschen.
Vermutungen
3

Im Kontext der Faktorisierungsmethode sollen latente Merkmale normalerweise Elemente entlang jeder Dimension charakterisieren. Lassen Sie mich anhand eines Beispiels erklären.

RRuipuTqipuuqii

puqich

Artem Sobolev
quelle
Ich habe Artikel gelesen, in denen die latenten Merkmale (z. B. der "Benutzervektor") verwendet werden, um einige Zielvariable (n) vorherzusagen. Nehmen wir als Beispiel das Geschlecht. Es "funktioniert", indem auf diese Weise ein Vorhersagemodell erstellt werden kann. Meine Frage ist, was ist der Unterschied zwischen dem "Benutzervektor" und der Mittelung der "Artikelvektoren" für alle Artikel, die ein Benutzer "besucht" hat? IOW, würden Sie erwarten, dass das oben erwähnte Vorhersagemodell im Vergleich zum anderen besser oder schlechter ist? Danke (falls du das jemals siehst).
thecity2
@ thecity2, Sie können die Elemente eines Benutzers mitteln, und dies kann tatsächlich nützlich sein, wenn Sie es mit Neulingen zu tun haben, für die Sie keine vorberechneten Benutzervektoren haben (obwohl es schwierig sein sollte, einige Optimierungsiterationen auszuführen, um diese zu berechnen). Es gibt auch ein Problem mit der einfachen Mittelwertbildung: Je mehr Elemente der Benutzer konsumiert hat, desto näher an Null liegt wahrscheinlich der durchschnittliche Elementvektor (aufgrund des typischen L2-Regularisierers und möglicherweise anderer unangenehmer Eigenschaften von hochdimensionalen Räumen). Schließlich ist ein separater Vektor flexibler: Ihr Modell kann eine solche Mittelwertbildung lernen.
Artem Sobolev
Das heißt, es gibt Versuche, den Verlauf des Benutzers zu verwenden, um den Vektor des Benutzers zu modellieren. Siehe zum Beispiel die Zeitung "Bauen Sie Ihren eigenen Musik-Recommender durch Modellieren von Internet-Radio-Streams"
Artem Sobolev,
0

Ich würde sagen, dass Faktoren repräsentativer sind als Hauptkomponenten, um eine Wahrnehmung der 'Latenz' / Verborgenheit einer Variablen zu erhalten. Die Latenz ist einer der Gründe, warum Verhaltenswissenschaftler Wahrnehmungskonstrukte wie Gefühl, Traurigkeit in Bezug auf mehrere Elemente / Maße messen und eine Zahl für solche versteckten Variablen ableiten, die nicht direkt gemessen werden können.

KarthikS
quelle
0

Hier sind Ihre Daten Bewertungen, die von verschiedenen Benutzern für verschiedene Filme abgegeben wurden. Wie andere betont haben, sind latente Mittel nicht direkt beobachtbar.

Für einen Film bestimmen seine latenten Merkmale die Menge an Action, Romantik, Handlung, einen berühmten Schauspieler usw. In ähnlicher Weise können die latenten Variablen für einen anderen Datensatz, der aus handgeschriebenen Ziffern besteht, Kantenwinkel, Schräglauf usw. sein.

Forscher
quelle