Ganzzahlige Daten: kategorisch oder kontinuierlich?

7

Ich frage mich, ob ganzzahlige Prädiktordaten als kategorisch (daher codierungsbedürftig) oder kontinuierlich behandelt werden sollten. Wenn der Bereich eines bestimmten Prädiktors Xbeispielsweise alle Ganzzahlen zwischen 1 und 230 sind, kann ich ihn dann als kontinuierliche Variable behandeln oder sollte ich ihn codieren, um 230 (oder vielleicht 229) neue Dummy-Variablen zu erhalten? Das Endziel der Analyse ist die Durchführung einer Regression oder Klassifizierung.

Bruno
quelle
Sie müssen etwas genauer über Ihre Einstellung sein. Manchmal ist es besser, als kategorisch, manchmal als kontinuierlich zu behandeln.
Dougal
@Dougal Welche zusätzlichen Informationen würden Sie benötigen, um Ihre Antwort zu erläutern? Angenommen, Sie probieren verschiedene Modelle (z. B. neuronale Netze, Kernel-Regression, generalisierte Boosted-Bäume) für einen gemischten Datensatz aus. Einige Prädiktoren sind "offensichtlich" kategorisch (z. B. Zeichenfolgen), während andere natürlich ganzzahlige Werte sein können.
Bruno
Glen ist richtig. Sie können aber auch eine oder mehrere kontinuierliche Variablen in kategoriale Variablen umwandeln, wenn dies Ihre Analyse aussagekräftiger macht.
HelloWorld

Antworten:

9

Im Allgemeinen ist beides nicht geeignet. Ganzzahlen sind diskret und nicht stetig, aber wenn sie als nominelle Kategorien behandelt werden, werden die meisten Informationen verworfen, und selbst wenn sie als ordinale Kategorien behandelt werden, kann dies zu erheblichen Verlusten führen.

In einigen Situationen mag das eine oder andere in Ordnung sein, aber es ist fast immer besser, sie als das zu behandeln, was sie sind. Wenn es sich bei den Daten beispielsweise um Zählungen handelt, verwenden Sie eine für Zählungen geeignete Analyse .

Angenommen, Sie möchten eine Regression für Zähldaten durchführen. Es gibt eine Reihe von Zählregressionsmodellen, einschließlich (aber nicht beschränkt auf) Poisson-, Binomial- und negative Binomialregression.


Bei ganzzahligen IVs (Prädiktoren) muss mit Ganzzahlen nichts mehr getan werden als mit einem kontinuierlichen Prädiktor - zumindest nicht auf der Grundlage, dass es sich um Ganzzahlen handelt.

Sowohl bei ganzzahligen als auch bei kontinuierlichen Prädiktoren ist es entscheidend, dass Sie (ob aus der Theorie, früheren Studien oder anderen Mitteln) verstehen, wie sich die Prädiktorvariable auf die Antwort bezieht, und nicht darauf, dass es sich um Ganzzahlen handelt.

Glen_b -State Monica
quelle
Vielen Dank! Mir war keine Regression für Zähldaten bekannt. Ich habe gemischte Daten in meinem Problem. Einige Spalten im Datensatz sind offensichtliche Mehrklassenkategorien (Zeichenfolgen), während andere Ganzzahlen sind (z. B. Alter, Anzahl der Vorkommen einer Kategorie), und einige können binäre Kategorien sein. Im Allgemeinen kann es jedoch auch einige kontinuierliche (reale) Daten geben. Es scheint, dass das R-Paket pscl einige verwandte Funktionen hat (Hürde und Zeroinfl), aber ich frage mich, ob die Tatsache, dass ich gemischte Daten habe, einen anderen Ansatz erfordern würde ... irgendwelche Kommentare?
Bruno
@Bruno Es spielt keine Rolle, ob die
IVs gezählt werden
Das hängt vom Problem ab. Ich teste derzeit einige Modelle auf binäre Klassifizierung und gewöhnliche Regression (natürlich verschiedene Probleme). Ich bin nur im Zweifel, wie ich mit bestimmten Prädiktoren umgehen soll.
Bruno
Warum sollten Sie ihnen etwas antun müssen?
Glen_b -State Monica
Das ist meine Frage! :) Bevor ich die Daten in das Modell einspeise, frage ich mich, was ich mit einigen der "nicht offensichtlichen" Prädiktoren vorverarbeiten soll. Wie ich bereits erwähnt habe, können einige Ganzzahlen sein (und in einigen Fällen kenne ich ihre Unterstützung).
Bruno
2

Es kommt wirklich auf den Kontext an.

Wenn die Ganzzahlvariable eine inhärente Reihenfolge aufweist, z. B. Farben, bei denen niedrigere Zahlen "dunklere Schattierungen" und höhere Zahlen "hellere Schattierungen" darstellen, ist es mit ziemlicher Sicherheit vorzuziehen, sie als kontinuierliche Variable zu behandeln. Dies wäre nicht nur sinnvoller, sondern Sie eliminieren auch etwa 200 Variablen aus Ihrem Modell, was ein großer Bonus ist.

Wenn diese Ganzzahlen jedoch keine inhärente Reihenfolge haben, beispielsweise Grundstücke darstellen, sollten sie als kategoriale Variable behandelt werden. Es wäre nicht sinnvoll, sie als kontinuierliche Variable zu behandeln, da ihr Wert unabhängig von der Eigenschaft der Variablen ist, an der Sie interessiert sind.

Patty
quelle
Ich verstehe ... wird "Alter" normalerweise als kontinuierlich angesehen? Außerdem entspricht einer der Prädiktoren der Anzahl der Vorkommen einer bestimmten Kategorie als Teil der Unterstützung eines anderen Prädiktors.
Bruno
0

Sie müssen keine der 2 angegebenen Aktionen ausführen. Was Sie tun können, ist Regression. In R in glm haben Sie die Möglichkeit, das Familienattribut so festzulegen, dass Sie Ihre Präferenz festlegen können. Wenn Sie beispielsweise die normale Regressionsfamilie = Gauß betrachten und eine Zielvariable vom Zählertyp möchten, wie Sie in der Frage erläutert haben, müssen Sie sie meiner Meinung nach als Binomial festlegen (bitte überprüfen Sie sie einmal), aber ja, so wird Ihr Modell Ihre berücksichtigen Ziel als Zählungstyp und nicht kontinuierlich oder kategorisch.

Somsom
quelle