Ist es immer falsch, von kontinuierlichen Daten zu kategorialen Daten zu wechseln?

14

Wenn ich über das Einrichten Ihrer Daten lese, stoße ich oft darauf, dass das Umwandeln einiger kontinuierlicher Daten in kategoriale Daten keine gute Idee ist, da Sie möglicherweise die falsche Schlussfolgerung ziehen, wenn die Schwellenwerte schlecht bestimmt werden.

Derzeit liegen mir jedoch einige Daten vor (PSA-Werte für Prostatakrebspatienten), bei denen meines Erachtens der allgemeine Konsens lautet, dass Sie unter 4 wahrscheinlich keine haben, wenn Sie über 4 sind, einem Risiko ausgesetzt sind und dann so etwas wie über 10 und 20 haben Sie es wahrscheinlich. Sowas in der Art. Wäre es in diesem Fall immer noch falsch, meine fortlaufenden PSA-Werte in Gruppen von beispielsweise 0-4, 4-10 und> 10 zu kategorisieren? Oder ist es eigentlich okay, da die Schwellen sozusagen "gut bestimmt" sind?

Denver Dang
quelle
5
Es kommt darauf an (wie immer). Wenn Sie beispielsweise untersuchen, wie Ärzte Entscheidungen treffen, und diese anhand dieser Kategorien treffen, müssen Sie dieselben Kategorien verwenden. Wenn Sie stattdessen die mit erhöhtem PSA verbundenen biologischen Folgen untersuchen, möchten Sie PSA höchstwahrscheinlich überhaupt nicht kategorisieren. Daher gibt es keine eindeutige Antwort auf Ihre allgemeine Frage "Ist es in Ordnung?".
whuber
Was versuchst du mit den Daten zu tun? Beziehen sich solche Grenzen normalerweise nicht auf das, was Sie herausfinden möchten, so dass das Einfügen von Hand die Frage aufwirft?
RemcoGerlich
Ich richte die Daten für ein logistisches Regressionsmodell ein. Die Hauptfrage ist also, ob Sie nur die kontinuierlichen Daten verwenden oder stattdessen diskrete Daten haben.
Denver Dang
1
Mir ist nicht klar, was "kontinuierliche" Daten sind. Es ist nicht etwas, das in der Realität existiert. Es gibt keine Messung / Statistik mit unendlicher Präzision.
JimmyJames
1
@ BillHorvath Ja, ich bin kein Arzt, daher bin ich mir nicht ganz sicher, wie dies festgestellt wurde. Wenn Sie sich nur die Wiki-Seite ansehen, steht dort eine Stelle: "PSA-Werte zwischen 4 und 10 ng / ml (Nanogramm pro Milliliter) gelten als verdächtig, und es sollte überlegt werden, die abnormale PSA durch einen Wiederholungstest zu bestätigen. " und dann ein anderer Ort: "Niedriges Risiko: PSA <10, Gleason-Score ≤ 6 UND klinisches Stadium ≤ T2a Zwischenrisiko: PSA 10-20, Gleason-Score 7 ODER klinisches Stadium T2b / c Hochrisiko: PSA> 20 , Gleason Score ≥ 8 ODER klinisches Stadium ≥ T3 "
Denver Dang

Antworten:

23

Gibt es eine scharfe Diskontinuität an Ihren Schwellenwerten?

Angenommen, Sie haben zwei Patienten A und B mit den Werten 3,9 und 4,1 und zwei weitere Patienten C und D mit den Werten 6,7 und 6,9. Ist der Unterschied in der Wahrscheinlichkeit für Krebs zwischen A und B viel größer als der entsprechende Unterschied zwischen C und D?

Wenn ja, dann ist eine Diskretisierung sinnvoll.

Wenn nicht, sind Ihre Schwellenwerte möglicherweise für das Verständnis Ihrer Daten sinnvoll, aber statistisch nicht aussagekräftig. Nicht diskretisieren. Verwenden Sie stattdessen Ihre Testergebnisse "wie sie sind". Wenn Sie eine Art Nichtlinearität vermuten, verwenden Sie .

Dies wird sehr empfohlen.

S. Kolassa - Setzen Sie Monica wieder ein
quelle
2
Dieser Link am unteren Rand ist voller großartiger Punkte. Zukünftige Leser dieser Antwort sollten es überprüfen.
eric_kernfeld
Ich denke, Diskretisierung macht keinen Sinn, es sei denn, es gibt einen großen Sprung im Ergebnis bei der vorgeschlagenen Pause UND wenn das Ergebnis innerhalb dieser Gruppen relativ homogen ist. Ansonsten gibt es bessere Möglichkeiten, einen "Sprung" in der Funktion @Stephan Kolassa
LSC
1

Ich denke, die Standardantwort ist, dass es immer schlecht ist, weil Sie dabei Informationen verlieren. Es ist schwer zu glauben, dass Sie in jedem Fall etwas davon haben, natürliche Intervalldaten zu nehmen und kategorisch zu machen.

user54285
quelle
Die geeignete Situation wäre, wenn es eine echte Diskontinuität in der Beziehung zwischen diesem bestimmten x und dem DV gibt und das Ergebnis innerhalb der "Kategorien" relativ homogen ist.
LSC