Mit welchen statistischen Methoden kann ich beliebte oder häufig verwendete Kombinationen kategorialer Variablen finden?

10

Ich mache eine Studie über den Gebrauch von Polydrogen. Ich habe einen Datensatz von 400 Drogenabhängigen, die jeweils die Drogen angegeben haben, die sie missbrauchen. Es gibt mehr als 10 Medikamente und daher große mögliche Kombinationen. Ich habe die meisten Drogen, die sie konsumieren, in binäre Variablen umkodiert (dh Heroin ist 1, wenn ein Drogenabhängiger Heroin missbraucht hat, sonst 0). Ich würde gerne die beliebten oder gebräuchlichen Kombinationen von 2 oder 3 Medikamenten finden. Gibt es statistische Methoden, die ich verwenden kann?

Tatami
quelle

Antworten:

6

Es gibt nur 1024 mögliche Kombinationen der Arzneimittel, die zusammen verwendet werden sollen (wenn es nur 10 Arzneimittel gäbe), vorausgesetzt, jeder Benutzer hat mindestens 1 Arzneimittel verwendet. Sie können Ihre 0/1-Variablen einfach in eine Zeichenfolge konvertieren und verketten und Frequenzanalysen für die Zeichenfolge ausführen, um festzustellen, welche Kombinationen am häufigsten auftreten. Nehmen wir ein Spielzeugbeispiel, sagen wir, nur 3 Medikamente, A, B und C, waren in Ihrer Studie. Wenn ein Teilnehmer Medikament A und C verwendet, alldrugskönnte die Variable mit 101 codiert werden. Ein Teilnehmer, der nur Medikament B verwendet, würde mit 010 codiert. Führen Sie Frequenzen auf diesen aus, um die am häufigsten ausgewählte zu finden. Die meisten Programme sollten dies in Sekundenschnelle verarbeiten können.

StatsStudent
quelle
1
Einverstanden. Es gibt nur 400 Süchtige, so dass diese 1024 nicht alle auftreten können.
Nick Cox
Ja. Dies sollte ein Kinderspiel sein.
StatsStudent
5

Latente Klassenmodellierung wäre ein überwachter Lernansatz, um zugrunde liegende, "versteckte" Partitionen oder Gruppierungen von Drogen und Drogenkonsumenten zu finden. LC ist eine sehr flexible Methode mit zwei umfassenden Ansätzen: Replikationen basierend auf wiederholten Messungen für ein einzelnes Subjekt und Replikationen basierend auf der Kreuzklassifizierung einer Reihe von kategorialen Variablen. Ihre Daten würden zum zweiten Typ passen.

Die Flexibilität von LCs ist eine Funktion ihrer Fähigkeit, "Gemische" von Variablen mit unterschiedlichen Skalierungen (z. B. kategorial oder kontinuierlich) zu absorbieren. Da der Ansatz versteckte Partitionen, Segmente oder Cluster in Daten findet, kann er auch als Dimensionsreduktionstechnik betrachtet werden.

Alle LC-Modelle haben zwei Stufen: In Stufe 1 wird eine abhängige oder Zielvariable identifiziert und ein Regressionsmodell erstellt. In Stufe 2 wird der Rest (ein einzelner "latenter" Vektor) aus dem Modell der Stufe 1 analysiert und Partitionen erstellt, die die Variabilität (oder Heterogenität) - die "latenten Klassen" - in diesem Vektor erfassen.

Freeware zum Herunterladen ist da draußen, was für Sie wahrscheinlich ziemlich gut funktionieren würde. Eines davon ist ein R-Modul namens polCA, das hier erhältlich ist:

http://www.jstatsoft.org/article/view/v042i10

Wenn Sie etwa 1.000 US-Dollar für ein kommerzielles Produkt ausgeben müssen, ist Latent Gold unter www.statisticalinnovations.com erhältlich. Nachdem ich Latent Gold jahrelang verwendet habe, bin ich ein großer Fan dieses Produkts aufgrund seiner analytischen Leistung und seines Lösungsspektrums. Zum Beispiel ist polCA nur für LC-Modelle mit kategorialen Informationen nützlich, während LG auf der ganzen Linie arbeitet. Außerdem fügen die Entwickler immer neue Module hinzu. Die neueste Ergänzung erstellt LC-Modelle unter Verwendung versteckter Markov-Ketten. Bedenken Sie jedoch, dass LG keine "End-to-End" -Datenplattform ist, dh nicht für umfangreiche Datenmanipulationen oder -aufhebungen geeignet ist.

Ansonsten gibt es unzählige andere Ansätze zur Analyse kategorialer Informationen, die von statistischer Software wie R, SPSS, SAS, Python usw. weitgehend unterstützt werden. Dazu gehören die Analyse von Kontingenztabellen, logarithmisch lineare Modelle, Modelle mit endlichen Gemischen, die Bayes'sche Tensorregression, und so weiter. Die Literatur in diesem Bereich ist umfangreich und begann 1975 mit Bishop et al., Discrete Multivariate Analysis . Sie erstreckt sich über Leo Goodmans RC-Modelle, die auf seinen seit den 80er Jahren geleisteten Arbeiten, Agrestis Categorical Data Analysis , Büchern von Stephen Fienberg und Thomas Wickens basieren 'ausgezeichnetes Buch Multiway Contingency Tables Analysis für die Sozialwissenschaften, veröffentlicht 1989. Bayesian Tensor Regression ist der Titel eines Papiers von David Dunson bei Duke und eine Art "State-of-the-Art", da es sich um eine sehr neue Methode zur Modellierung massiver Mehrweg-Kontingenztabellen handelt.

Mike Hunter
quelle
liebe die Liste der Referenzen!
Chris
3

Was fällt Ihnen intuitiv ein? Sie möchten die Kombinationen zählen, warum nicht einfach alle möglichen Kombinationen finden und einfach zählen? Ich schlage vor, Sie schauen sich das häufige Mining von Objektgruppen an.

Wikipedia - Apriori

Hier sind einige Implementierungen derselben:

Frequenzmuster-Mining

Harter Nisar
quelle