Wenn ich über das Einrichten Ihrer Daten lese, stoße ich oft darauf, dass das Umwandeln einiger kontinuierlicher Daten in kategoriale Daten keine gute Idee ist, da Sie möglicherweise die falsche Schlussfolgerung ziehen, wenn die Schwellenwerte schlecht bestimmt werden.
Derzeit liegen mir jedoch einige Daten vor (PSA-Werte für Prostatakrebspatienten), bei denen meines Erachtens der allgemeine Konsens lautet, dass Sie unter 4 wahrscheinlich keine haben, wenn Sie über 4 sind, einem Risiko ausgesetzt sind und dann so etwas wie über 10 und 20 haben Sie es wahrscheinlich. Sowas in der Art. Wäre es in diesem Fall immer noch falsch, meine fortlaufenden PSA-Werte in Gruppen von beispielsweise 0-4, 4-10 und> 10 zu kategorisieren? Oder ist es eigentlich okay, da die Schwellen sozusagen "gut bestimmt" sind?
quelle
Antworten:
Gibt es eine scharfe Diskontinuität an Ihren Schwellenwerten?
Angenommen, Sie haben zwei Patienten A und B mit den Werten 3,9 und 4,1 und zwei weitere Patienten C und D mit den Werten 6,7 und 6,9. Ist der Unterschied in der Wahrscheinlichkeit für Krebs zwischen A und B viel größer als der entsprechende Unterschied zwischen C und D?
Wenn ja, dann ist eine Diskretisierung sinnvoll.
Wenn nicht, sind Ihre Schwellenwerte möglicherweise für das Verständnis Ihrer Daten sinnvoll, aber statistisch nicht aussagekräftig. Nicht diskretisieren. Verwenden Sie stattdessen Ihre Testergebnisse "wie sie sind". Wenn Sie eine Art Nichtlinearität vermuten, verwenden Sie Splines .
Dies wird sehr empfohlen.
quelle
Ich denke, die Standardantwort ist, dass es immer schlecht ist, weil Sie dabei Informationen verlieren. Es ist schwer zu glauben, dass Sie in jedem Fall etwas davon haben, natürliche Intervalldaten zu nehmen und kategorisch zu machen.
quelle