Ich arbeite derzeit mit einer Vielzahl von Daten zu Krankenversicherungsansprüchen, einschließlich einiger Angaben zu Labor- und Apothekenansprüchen. Die konsistentesten Informationen im Datensatz bestehen jedoch aus Diagnose- (ICD-9CM) und Verfahrenscodes (CPT, HCSPCS, ICD-9CM).
Meine Ziele sind:
- Identifizieren Sie die einflussreichsten Vorläuferzustände (Komorbiditäten) für einen medizinischen Zustand wie eine chronische Nierenerkrankung.
- Identifizieren Sie die Wahrscheinlichkeit (oder Wahrscheinlichkeit), dass ein Patient einen medizinischen Zustand entwickelt, basierend auf den Zuständen, die er in der Vergangenheit hatte.
- Machen Sie dasselbe wie 1 und 2, aber mit Prozeduren und / oder Diagnosen.
- Vorzugsweise sind die Ergebnisse von einem Arzt interpretierbar
Ich habe mir Dinge wie die Meilensteinpapiere zum Heritage Health Prize angeschaut und viel von ihnen gelernt, aber sie konzentrieren sich auf die Vorhersage von Krankenhausaufenthalten.
Hier sind meine Fragen: Welche Methoden eignen sich Ihrer Meinung nach für solche Probleme? Und welche Ressourcen wären am nützlichsten, um mehr über datenwissenschaftliche Anwendungen und Methoden im Gesundheitswesen und in der klinischen Medizin zu erfahren?
BEARBEITEN SIE 2, um eine Klartext-Tabelle hinzuzufügen:
CNE ist die Zielerkrankung, "chronische Nierenerkrankung", ".alle" bedeutet, dass sie diese Erkrankung zu einem beliebigen Zeitpunkt erworben haben, ".vor.ckd" bedeutet, dass sie diese Erkrankung vor ihrer ersten Diagnose von CNE hatten. Die anderen Abkürzungen entsprechen anderen Bedingungen, die durch ICD-9CM-Codegruppierungen identifiziert werden. Diese Gruppierung erfolgt in SQL während des Importvorgangs. Jede Variable mit Ausnahme von patient_age ist binär.
quelle
Antworten:
Ich habe noch nie mit medizinischen Daten gearbeitet, aber aus allgemeinen Gründen würde ich sagen, dass die Beziehungen zwischen Variablen im Gesundheitswesen ziemlich kompliziert sind. Verschiedene Modelle wie zufällige Wälder, Regressionen usw. können nur einen Teil der Beziehungen erfassen und andere ignorieren. Unter solchen Umständen ist es sinnvoll, eine allgemeine statistische Untersuchung und Modellierung durchzuführen .
Das allererste, was ich tun würde, ist zum Beispiel, Zusammenhänge zwischen möglichen Vorläuferzuständen und Diagnosen herauszufinden . In wie viel Prozent der Fälle ging einer chronischen Nierenerkrankung eine lange Grippe voraus? Wenn es hoch ist, bedeutet es nicht immer Kausalität , sondern gibt ziemlich gute Denkanstöße und hilft, die Beziehungen zwischen verschiedenen Zuständen besser zu verstehen.
Ein weiterer wichtiger Schritt ist die Datenvisualisierung. Tritt CNI bei Männern häufiger auf als bei Frauen? Was ist mit ihrem Wohnort? Wie ist die Verteilung der CNI-Fälle nach Alter? Es ist schwierig, große Datenmengen als eine Menge von Zahlen zu erfassen, da das Zeichnen dieser Daten viel einfacher ist.
Wenn Sie eine Idee haben, was los ist, führen Sie durch Hypothesentests durch , um Ihre Annahme zu überprüfen. Wenn Sie die Nullhypothese (Grundannahme) zugunsten der Alternative ablehnen, herzlichen Glückwunsch, Sie haben "etwas Reales" gemacht.
Wenn Sie schließlich ein gutes Verständnis für Ihre Daten haben, versuchen Sie, ein vollständiges Modell zu erstellen . Es kann sich um etwas Allgemeines wie PGM (z. B. manuell erstelltes Bayes'sches Netzwerk) oder um etwas Spezifischeres wie lineare Regression handeln SVM handeln . In jedem Fall wissen Sie jedoch bereits, wie dieses Modell Ihren Daten entspricht und wie Sie seine Effizienz messen können.
Als gute Einstiegsquelle für das Erlernen des statistischen Ansatzes würde ich den Einführungskurs in die Statistik von Sebastian Thrun empfehlen . Obwohl es ziemlich einfach ist und keine fortgeschrittenen Themen enthält, werden die wichtigsten Konzepte beschrieben und ein systematisches Verständnis der Wahrscheinlichkeitstheorie und -statistik vermittelt.
quelle
Obwohl ich kein Datenwissenschaftler bin, arbeite ich als Epidemiologe in einem klinischen Umfeld. In Ihrer Forschungsfrage wurde kein Zeitraum angegeben (dh die Wahrscheinlichkeit, dass sich eine CNI in 1 Jahr, 10 Jahren und auf Lebenszeit entwickelt?).
Im Allgemeinen würde ich eine Reihe von Schritten durchlaufen, bevor ich überhaupt über Modellierung nachdenke (univariate Analyse, bivariate Analyse, Colinearitätsprüfungen usw.). Die am häufigsten verwendete Methode zum Vorhersagen eines binären Ereignisses (unter Verwendung kontinuierlicher binärer ODER-Variablen) ist jedoch die logistische Regression. Wenn Sie CKD als Laborwert (Urinalbumin, eGFR) betrachten möchten, verwenden Sie die lineare Regression (kontinuierliches Ergebnis).
Während die verwendeten Methoden anhand Ihrer Daten und Fragen ermittelt werden sollten, sind Kliniker daran gewöhnt, Quoten- und Risikoverhältnisse als die am häufigsten gemeldeten Assoziationsmaße in medizinischen Fachzeitschriften wie NEJM und JAMA zu betrachten.
Wenn Sie an diesem Problem aus Sicht der menschlichen Gesundheit arbeiten (im Gegensatz zu Business Intelligence), sind die klinischen Vorhersagemodelle von Steyerberg eine hervorragende Ressource.
quelle
"Identifizieren Sie die einflussreichsten Vorläuferzustände (Komorbiditäten) für einen medizinischen Zustand wie eine chronische Nierenerkrankung"
Ich bin mir nicht sicher, ob es möglich ist, die einflussreichsten Bedingungen zu identifizieren. Ich denke, es hängt davon ab, welches Modell Sie verwenden. Erst gestern habe ich eine zufällige Gesamtstruktur und einen verstärkten Regressionsbaum an dieselben Daten angepasst, und die Reihenfolge und die relative Bedeutung, die die einzelnen Modelle für die Variablen angaben, waren sehr unterschiedlich.
quelle