Ich habe Mühe, eine Methode zu finden, um die Anzahl der Kategorien in nominalen oder ordinalen Daten zu reduzieren.
Angenommen, ich möchte ein Regressionsmodell für ein Dataset erstellen, das eine Reihe von nominalen und ordinalen Faktoren enthält. Während ich mit diesem Schritt keine Probleme habe, stoße ich häufig auf Situationen, in denen ein nominales Merkmal keine Beobachtungen im Trainingssatz enthält, aber anschließend im Validierungsdatensatz vorhanden ist. Dies führt natürlich zu und Fehler, wenn das Modell mit (bisher) unsichtbaren Fällen dargestellt wird. Eine andere Situation, in der ich Kategorien kombinieren möchte, ist einfach, wenn es zu viele Kategorien mit wenigen Beobachtungen gibt.
Meine Fragen sind also:
- Obwohl mir klar ist, dass es am besten ist, viele nominale (und ordinale) Kategorien auf der Grundlage der früheren realen Hintergrundinformationen, die sie darstellen, zu kombinieren, gibt es systematische Methoden (
R
vorzugsweise Pakete)? - Welche Richtlinien und Vorschläge würden Sie in Bezug auf Schwellenwerte usw. machen?
- Was sind die beliebtesten Lösungen in der Literatur?
- Gibt es andere Strategien als die Kombination kleiner nominaler Kategorien zu einer neuen Kategorie "SONSTIGES"?
Wenn Sie weitere Vorschläge haben, können Sie sich gerne an uns wenden.
Antworten:
Dies ist eine Antwort auf Ihre zweite Frage.
Ich vermute, dass die richtige Herangehensweise an diese Art von Entscheidungen weitgehend durch disziplinarische Normen und die Erwartungen des beabsichtigten Publikums Ihrer Arbeit bestimmt wird. Als Sozialwissenschaftler arbeite ich oft mit Umfragedaten (oder umfrageähnlichen Daten) und versuche immer, inhaltliche und datengetriebene Logiken in Einklang zu bringen, wenn ich Ordnungsskalen oder kategoriale Variablen kollabiere. Mit anderen Worten, ich werde mein Bestes tun, um zu prüfen, welche Kombinationen von Elementen in Bezug auf ihre Substanz und die Verteilung der Antworten "zusammenhängen", bevor ich die Elemente zusammenfalle.
Hier ist ein aktuelles Beispiel für eine bestimmte (ordinale) Frage, die eine Fünf-Punkte-Frequenzskala umfasste:
Ich habe momentan keine Daten zur Verfügung, aber die Ergebnisse waren stark auf das "nie" -Ende der Skala verschoben. Aus diesem Grund haben mein Co-Autor und ich die Antworten in zwei Gruppen zusammengefasst: "Einmal im Monat oder mehr" und "Weniger als einmal im Monat". Die resultierende (binäre) Variable war gleichmäßiger verteilt und spiegelte eine sinnvolle Unterscheidung in der Praxis wider: Da sich viele Clubs und Organisationen nicht mehr als einmal im Monat treffen, gibt es gute Gründe zu glauben, dass es Menschen sind, die mindestens so oft an Meetings teilnehmen "aktive" Mitglieder solcher Gruppen, während diejenigen, die seltener (oder nie) teilnehmen, "inaktiv" sind.
Nach meiner Erfahrung sind diese Entscheidungen also mindestens genauso kunstvoll wie wissenschaftlich. Trotzdem versuche ich dies normalerweise auch, bevor ich ein Modell anpasse, da ich in einer Disziplin arbeite, in der alles andere als Data Mining (negativ) und höchst unwissenschaftlich angesehen wird (unterhaltsame Zeiten!).
In diesem Sinne könnte es hilfreich sein, wenn Sie etwas mehr darüber sagen, welche Art von Publikum Sie für diese Arbeit im Sinn haben. Es liegt auch in Ihrem Interesse, ein paar herausragende Lehrbücher für Methodik in Ihrem Fachgebiet zu lesen, da sie oft klären können, was für eine gegebene Forschungsgemeinschaft als "normales" Verhalten gilt.
quelle
Die Ansätze, die ashaw diskutiert, können zu einer relativ systematischeren Methodik führen. Aber ich denke auch, dass Sie unter systematisch algorithmisch verstehen. Hier können Data Mining-Tools eine Lücke schließen. Zum einen gibt es die im Decision Tree-Modul von SPSS integrierte CHAID-Prozedur (Chi-Squared Automatic Interaction Detection). Gemäß den vom Benutzer festgelegten Regeln können ordinale oder nominale Kategorien von Prädiktorvariablen ausgeblendet werden, wenn sie ähnliche Werte für die Ergebnisvariable anzeigen (unabhängig davon, ob sie kontinuierlich oder nominal ist). Diese Regeln hängen möglicherweise von der Größe der Gruppen ab, die reduziert oder durch Reduzieren erstellt werden, oder vom p-Werte verwandter statistischer Tests. Ich glaube, dass einige Klassifizierungs- und Regressionsbaumprogramme (CART) das Gleiche tun können. Andere Befragte sollten in der Lage sein, über ähnliche Funktionen zu sprechen, die von neuronalen Netzen oder anderen Anwendungen ausgeführt werden, die über verschiedene Data Mining-Pakete bereitgestellt werden.
quelle