Ich frage mich, ob ganzzahlige Prädiktordaten als kategorisch (daher codierungsbedürftig) oder kontinuierlich behandelt werden sollten. Wenn der Bereich eines bestimmten Prädiktors X
beispielsweise alle Ganzzahlen zwischen 1 und 230 sind, kann ich ihn dann als kontinuierliche Variable behandeln oder sollte ich ihn codieren, um 230 (oder vielleicht 229) neue Dummy-Variablen zu erhalten? Das Endziel der Analyse ist die Durchführung einer Regression oder Klassifizierung.
7
Antworten:
Im Allgemeinen ist beides nicht geeignet. Ganzzahlen sind diskret und nicht stetig, aber wenn sie als nominelle Kategorien behandelt werden, werden die meisten Informationen verworfen, und selbst wenn sie als ordinale Kategorien behandelt werden, kann dies zu erheblichen Verlusten führen.
In einigen Situationen mag das eine oder andere in Ordnung sein, aber es ist fast immer besser, sie als das zu behandeln, was sie sind. Wenn es sich bei den Daten beispielsweise um Zählungen handelt, verwenden Sie eine für Zählungen geeignete Analyse .
Angenommen, Sie möchten eine Regression für Zähldaten durchführen. Es gibt eine Reihe von Zählregressionsmodellen, einschließlich (aber nicht beschränkt auf) Poisson-, Binomial- und negative Binomialregression.
Bei ganzzahligen IVs (Prädiktoren) muss mit Ganzzahlen nichts mehr getan werden als mit einem kontinuierlichen Prädiktor - zumindest nicht auf der Grundlage, dass es sich um Ganzzahlen handelt.
Sowohl bei ganzzahligen als auch bei kontinuierlichen Prädiktoren ist es entscheidend, dass Sie (ob aus der Theorie, früheren Studien oder anderen Mitteln) verstehen, wie sich die Prädiktorvariable auf die Antwort bezieht, und nicht darauf, dass es sich um Ganzzahlen handelt.
quelle
Es kommt wirklich auf den Kontext an.
Wenn die Ganzzahlvariable eine inhärente Reihenfolge aufweist, z. B. Farben, bei denen niedrigere Zahlen "dunklere Schattierungen" und höhere Zahlen "hellere Schattierungen" darstellen, ist es mit ziemlicher Sicherheit vorzuziehen, sie als kontinuierliche Variable zu behandeln. Dies wäre nicht nur sinnvoller, sondern Sie eliminieren auch etwa 200 Variablen aus Ihrem Modell, was ein großer Bonus ist.
Wenn diese Ganzzahlen jedoch keine inhärente Reihenfolge haben, beispielsweise Grundstücke darstellen, sollten sie als kategoriale Variable behandelt werden. Es wäre nicht sinnvoll, sie als kontinuierliche Variable zu behandeln, da ihr Wert unabhängig von der Eigenschaft der Variablen ist, an der Sie interessiert sind.
quelle
Sie müssen keine der 2 angegebenen Aktionen ausführen. Was Sie tun können, ist Regression. In R in glm haben Sie die Möglichkeit, das Familienattribut so festzulegen, dass Sie Ihre Präferenz festlegen können. Wenn Sie beispielsweise die normale Regressionsfamilie = Gauß betrachten und eine Zielvariable vom Zählertyp möchten, wie Sie in der Frage erläutert haben, müssen Sie sie meiner Meinung nach als Binomial festlegen (bitte überprüfen Sie sie einmal), aber ja, so wird Ihr Modell Ihre berücksichtigen Ziel als Zählungstyp und nicht kontinuierlich oder kategorisch.
quelle