Ich möchte Gruppen von Artikeln vorhersagen, die jemand kaufen wird ... dh ich habe mehrere kolinear abhängige Variablen.
Anstatt 7 oder so unabhängige Modelle zu erstellen, um die Wahrscheinlichkeit vorherzusagen, dass jemand jedes der 7 Elemente kauft, und dann die Ergebnisse zu kombinieren, welche Methoden sollte ich prüfen, um ein Modell zu haben, das die Beziehungen zwischen den 7 verwandten, abhängigen Variablen berücksichtigt ( Dinge, die sie kaufen können).
Ich verwende R als Programmiersprache, daher sind alle R-spezifischen Ratschläge willkommen.
quelle
?poLCA
Weitere Informationen zum Anpassen dieses Modells finden Sie in R.?nnet
in R) vorschlagen .Sie könnten einen zufälligen Wald bauen, in dem jede Ihrer Klassen eine Gruppe von Gegenständen ist (dh "grüne Äpfel mit gezüchteten Erdbeeren, mit 2% Milch"). Basierend auf den Merkmalen des Käufers oder was auch immer Ihre Prädiktoren sind, können Sie dann für jede Artikelgruppe eine vorhergesagte Kaufwahrscheinlichkeit angeben. Ich würde dazu das randomForest-Paket von R ( https://cran.r-project.org/web/packages/randomForest/index.html ) verwenden.
quelle
Eine Möglichkeit besteht darin, die Häufigkeit aller Kombinationen von Produktkäufen zu ermitteln. Wählen Sie die wenigen häufigsten Kombinationen aus. Erstellen Sie dann ein Regressionsmodell, um die ausgewählte Kombination jedes Einzelnen vorherzusagen. Mit einer binären logistischen Regression könnten Sie beispielsweise den Kauf von a) Weißwein, Brie, Erdbeeren und Trauben im Vergleich zu b) Rotwein, Cheddar und Gouda vorhersagen. Bei mehr als zwei solchen Kombinationen oder wenn Sie die Kategorie "Keine der oben genannten" einschließen möchten, ist die multinomiale logistische Regression wahrscheinlich die Methode der Wahl.
Beachten Sie, dass das Einbeziehen nur der gängigen Combos bedeutet, dass Sie jeweils mehr brauchbare Zahlen haben, die anderen jedoch zumindest von diesem Verfahren ausschließen. Ich könnte mir 7 Gegenstände vorstellen, die Dutzende von Combos erstellen, die jeweils von mindestens ein paar Leuten ausgewählt wurden. Dies sind möglicherweise zu viele Kategorien für Ihre Stichprobengröße. Wenn eine Kombination nur von wenigen Personen ausgewählt würde, hätte Ihr Modell nur sehr wenige Informationen, mit denen Sie arbeiten könnten.
Eine andere Möglichkeit besteht darin, mithilfe der Clusteranalyse einige Sätze von Artikeln zu ermitteln, die in der Regel zusammen gekauft werden. Mit 7 Elementen erhalten Sie wahrscheinlich weniger als 4 Cluster, was Ihre Aufgabe möglicherweise erleichtert. Wenn Sie die Clusteranalyse versuchen und feststellen, dass die Ergebnisse nicht funktionieren, gibt es keinen Grund, warum Sie sie verwenden müssen: Kehren Sie einfach zu dem oben beschriebenen frequenzbasierten Ansatz zurück. In diesem Fall suchen Sie, wenn ich Sie richtig lese, nach den aussagekräftigsten und interessantesten Kategorien, und um dies festzustellen, müssen Sie sich keine Gedanken über Freiheitsgrade oder Mehrfachvergleiche oder solche Bedenken machen, die möglicherweise zutreffen Wenn Sie bei der Durchführung eines Inferenztests mehrere Methoden ausprobiert haben.
quelle
Ich gehe davon aus, dass Sie eine Situation ähnlich der folgenden analysieren möchten;
Yi = f (X), wobei f () eine nichtlineare Verbindung ist und X ein Vektor von Kovariaten ist und Yi die i-te abhängige Variable ist, die ordinaler Natur ist (wenn es kategorisch ist, kann Yi nicht mehr als zwei haben Kategorien), und sagen Sie in Ihrem Modell i = 1, 2, ... 5 und jedes der Yi ist korreliert ... Wenn ja, können Sie sicherlich Multivariate Probit verwenden. R, Mplus und SAS können MVP schätzen
Im Gegensatz dazu haben Sie Y = f (X) und Y (beachten Sie, dass es nur ein Y gibt) ist kategorisch und hat beispielsweise N Kategorien, so dass die über die N Kategorien getroffenen Entscheidungen exklusiv und erschöpfend sind. Sie müssen das Multinomial Logit-Modell anpassen. Es gibt auch so etwas wie multinomiales Probit, ähnlich wie multinomiales Logit.
Hoffe das hilft. Danke Sanjoy
quelle