Ich habe meine Daten so analysiert, wie sie sind. Jetzt möchte ich meine Analysen betrachten, nachdem ich alle Variablen protokolliert habe. Viele Variablen enthalten viele Nullen. Aus diesem Grund füge ich eine kleine Menge hinzu, um zu vermeiden, dass das Protokoll Null wird.
Bisher habe ich 10 ^ -10 hinzugefügt, und zwar ohne wirklichen Grund, nur weil ich der Meinung war, dass das Hinzufügen einer sehr kleinen Menge ratsam wäre, um den Effekt meiner willkürlich ausgewählten Menge zu minimieren. Einige Variablen enthalten jedoch meistens Nullen und daher, wenn sie protokolliert werden, meistens -23.02. Der Bereich der Bereiche meiner Variablen liegt zwischen 1,33 und 8819,21, und die Häufigkeit von Nullen variiert ebenfalls dramatisch. Daher wirkt sich meine persönliche Wahl der "kleinen Menge" sehr unterschiedlich auf die Variablen aus. Es ist jetzt klar, dass 10 ^ -10 eine völlig inakzeptable Wahl ist, da der größte Teil der Varianz in allen Variablen dann von dieser willkürlichen "kleinen Menge" herrührt.
Ich frage mich, wie ich das besser machen könnte.
Vielleicht ist es besser, die Menge aus den einzelnen Variablenverteilungen abzuleiten? Gibt es Richtlinien, wie groß diese "kleine Menge" sein sollte?
Meine Analysen sind meist einfache Cox-Modelle mit jeder Variablen und Alter / Geschlecht als IVs. Die Variablen sind die Konzentrationen verschiedener Blutfette mit oft erheblichen Variationskoeffizienten.
Bearbeiten : Das Hinzufügen des kleinsten Nicht-Null-Werts der Variablen erscheint für meine Daten praktisch. Aber vielleicht gibt es eine allgemeine Lösung?
Edit 2 : Da die Nullen lediglich Konzentrationen unterhalb der Nachweisgrenze anzeigen, ist es möglicherweise angebracht, sie auf (Nachweisgrenze) / 2 zu setzen.
Antworten:
Ich habe nur getippt, dass das, was mir in den Sinn kommt, wo log (häufig) Sinn macht und 0 auftreten kann, Konzentrationen sind, als Sie die 2. Bearbeitung durchgeführt haben. Wie Sie sagen, bedeutet die 0 für gemessene Konzentrationen nur "Ich konnte diese niedrigen Konzentrationen nicht messen".
Randnotiz: meinst du LOQ statt LOD?
Wenn jedoch der ursprüngliche Messwert verfügbar ist, kann dies eine bessere Vermutung liefern. Schließlich bedeutet LOQ normalerweise nur, dass der relative Fehler 10% beträgt. Darunter enthält die Messung noch Informationen, aber der relative Fehler wird sehr groß.
(blau: LOD, rot: LOQ)
Eine Alternative wäre, diese Messungen auszuschließen. Auch das kann sinnvoll sein,
zB eine Kalibrierkurve. In der Praxis beobachten Sie häufig eine Sigmoidform: Für ein niedriges c ist das Signal ≈ konstant, es liegt ein lineares Zwischenverhalten vor und anschließend die Detektorsättigung.
In dieser Situation können Sie sich auf Aussagen zu Konzentrationen beschränken, die eindeutig im linearen Bereich liegen, da sowohl unter als auch über anderen Prozessen das Ergebnis stark beeinflussen.
Stellen Sie sicher, dass Sie erklären, dass die Daten auf diese Weise ausgewählt wurden und warum.
edit: Was sinnvoll oder akzeptabel ist, hängt natürlich vom Problem ab. Wir sprechen hier hoffentlich von einem kleinen Teil der Daten, der die Analyse nicht beeinflusst.
Vielleicht ist eine schnelle und schmutzige Prüfung: Führen Sie Ihre Datenanalyse mit und ohne Ausschluss der Daten (oder einer von Ihnen vorgeschlagenen Behandlung) durch und prüfen Sie, ob sich etwas wesentlich ändert.
Wenn Sie Änderungen bemerken, haben Sie natürlich Probleme. Aus der Sicht der analytischen Chemie würde ich jedoch sagen, dass Ihr Problem nicht in erster Linie darin besteht, mit welcher Methode Sie mit den Daten umgehen, sondern dass das zugrunde liegende Problem darin besteht, dass die Analysemethode (oder ihr Arbeitsbereich) nicht geeignet war das Problem zur Hand. Es gibt natürlich eine Zone, in der der bessere statistische Ansatz Ihren Tag retten kann, aber am Ende gilt die Annäherung "Müll rein, Müll raus" normalerweise auch für die ausgefalleneren Methoden.
Zitate zum Thema:
Ein Statistiker sagte mir einmal:
Fisher über das statistische Post-Mortem von Experimenten
quelle
Chemische Konzentrationsdaten haben oft Nullen, aber diese stellen keine Nullwerte dar : Es handelt sich um Codes, die auf unterschiedliche (und verwirrende Weise) Weise beide Nicht-Erkennungsmerkmale darstellen (die Messung zeigte mit hoher Wahrscheinlichkeit an, dass der Analyt nicht vorhanden war) und "nicht quantifiziert". Werte (die Messung erkannte den Analyten, konnte jedoch keinen zuverlässigen numerischen Wert liefern). Nennen wir diese "NDs" hier nur vage.
In der Regel gibt es eine Grenze, die mit einer ND verbunden ist , die als "Nachweisgrenze", "Quantifizierungsgrenze" oder (viel ehrlicher) als "Meldegrenze" bezeichnet wird, da das Labor entscheidet , keinen numerischen Wert anzugeben (häufig für legale Zwecke) Gründe dafür). Über alles, was wir wirklich über eine ND wissen, ist, dass der wahre Wert wahrscheinlich unter dem zugehörigen Grenzwert liegt: Es ist fast (aber nicht ganz) eine Form der linken Zensur1,33 0 1,33 0,5 0,1
In den letzten 30 Jahren wurden umfangreiche Untersuchungen durchgeführt, um herauszufinden, wie solche Datensätze am besten zusammengefasst und ausgewertet werden können. Dennis Helsel veröffentlichte ein Buch zu diesem Thema , Nondetects and Data Analysis (Wiley, 2005), lehrte einen Kurs und veröffentlichte ein
R
Paket, das auf einigen seiner bevorzugten Techniken basierte. Seine Website ist umfassend.Dieses Gebiet ist mit Irrtümern und Missverständnissen behaftet. Helsel ist offen darüber: Auf der ersten Seite von Kapitel 1 seines Buches schreibt er:
Also, was ist zu tun? Sie können diesen guten Rat ignorieren, einige der Methoden in Helsels Buch anwenden und einige alternative Methoden verwenden. Richtig, das Buch ist nicht umfassend und es gibt gültige Alternativen. Allen Werten im Datensatz eine Konstante hinzuzufügen (sie zu "starten") ist eine Konstante. Aber bedenken Sie:
Ein hervorragendes Werkzeug zur Bestimmung des Startwerts ist ein lognormaler Wahrscheinlichkeitsplot: Abgesehen von den NDs sollten die Daten ungefähr linear sein.
Die Sammlung von NDs kann auch mit einer sogenannten "Delta Lognormal" -Verteilung beschrieben werden. Dies ist eine Mischung aus einer Punktmasse und einem Lognormal.
Wie aus den folgenden Histogrammen der simulierten Werte hervorgeht, sind die zensierte und die Delta-Verteilung nicht gleich. Der Delta-Ansatz ist am nützlichsten für erklärende Variablen in der Regression: Sie können eine "Dummy" -Variable erstellen, um die NDs anzuzeigen, Logarithmen der erkannten Werte zu erstellen (oder sie anderweitig nach Bedarf zu transformieren) und sich nicht um die Ersatzwerte für die NDs zu kümmern .
In diesen Histogrammen wurden ungefähr 20% der niedrigsten Werte durch Nullen ersetzt. Zur Vergleichbarkeit basieren sie alle auf den gleichen 1000 simulierten zugrunde liegenden logarithmischen Normalwerten (oben links). Die Delta-Verteilung wurde erstellt, indem 200 der Werte zufällig durch Nullen ersetzt wurden . Die zensierte Verteilung wurde erstellt, indem die 200 kleinsten Werte durch Nullen ersetzt wurden. Die "realistische" Verteilung entspricht meiner Erfahrung, dass die Berichtsgrenzen in der Praxis tatsächlich variieren (auch wenn dies nicht vom Labor angegeben wird!): Ich habe sie zufällig erstellt (um nur ein wenig, selten mehr als 30 Zoll) beide Richtungen) und ersetzte alle simulierten Werte, die unter ihren Berichtsgrenzen lagen, durch Nullen.
Zur Veranschaulichung der Nützlichkeit des Wahrscheinlichkeitsdiagramms und zur Erläuterung seiner Interpretation werden in der nächsten Abbildung normale Wahrscheinlichkeitsdiagramme angezeigt, die sich auf die Logarithmen der vorhergehenden Daten beziehen.
Lassen Sie uns zum Schluss einige der realistischeren Szenarien untersuchen:
Oben links wird der zensierte Datensatz mit den Nullen angezeigt, die auf die Hälfte des Berichtsgrenzwerts festgelegt sind. Es ist eine ziemlich gute Passform. Oben rechts sehen Sie den realistischeren Datensatz (mit zufällig variierenden Berichtsgrenzen). Ein Startwert von 1 hilft nicht, aber für einen Startwert von 120 (in der Nähe des oberen Bereichs der Berichtsgrenzen) ist die Anpassung - links unten - ziemlich gut. Interessanterweise erinnert die Krümmung nahe der Mitte, wenn die Punkte von den NDs auf die quantifizierten Werte ansteigen, an die Delta-Lognormalverteilung (obwohl diese Daten nicht aus einem solchen Gemisch erzeugt wurden). Unten rechts sehen Sie das Wahrscheinlichkeitsdiagramm, das Sie erhalten, wenn die NDs der realistischen Daten durch die Hälfte des (typischen) Berichtsgrenzwerts ersetzt werden. Dies ist die beste Passform, obwohl es in der Mitte ein Delta-Lognormal-ähnliches Verhalten zeigt.
Sie sollten also Wahrscheinlichkeitsdiagramme verwenden, um die Verteilungen zu untersuchen, da anstelle der NDs verschiedene Konstanten verwendet werden. Starten Sie die Suche mit der Hälfte des nominalen, durchschnittlichen Berichtsgrenzwerts und variieren Sie ihn von dort aus nach oben und unten. Wählen Sie eine grafische Darstellung, die rechts unten aussieht: ungefähr eine diagonale Gerade für die quantifizierten Werte, ein schnelles Absinken auf ein niedriges Plateau und ein Plateau von Werten, das (kaum) der Ausdehnung der Diagonale entspricht. Vermeiden Sie jedoch nach den Empfehlungen von Helsel (die in der Literatur stark unterstützt werden) für tatsächliche statistische Zusammenfassungen jede Methode, die die NDs durch eine Konstante ersetzt. Für eine Regression sollten Sie eine Dummy-Variable hinzufügen, um die NDs anzugeben. Bei einigen grafischen Darstellungen funktioniert das konstante Ersetzen von NDs durch den Wert, der bei der Wahrscheinlichkeitsplot-Übung gefunden wurde, gut. Bei anderen grafischen Darstellungen kann es wichtig sein, die tatsächlichen Berichtsgrenzen darzustellen. Ersetzen Sie daher die NDs stattdessen durch ihre Berichtsgrenzen. Sie müssen flexibel sein!
quelle
@miura
quelle
Beachten Sie, dass sich eine solche künstliche Einrichtung auf Ihre Analysen auswirkt. Gehen Sie daher bei der Interpretation sorgfältig vor und verwerfen Sie diese Fälle in einigen Fällen, um Artefakte zu vermeiden.
Die Verwendung der Erkennungsgrenze ist ebenfalls eine vernünftige Idee.
quelle
Um zu klären, wie mit dem Null-Log in Regressionsmodellen umgegangen werden soll, haben wir ein pädagogisches Papier verfasst, in dem die beste Lösung und die häufigsten Fehler, die Menschen in der Praxis machen, erläutert werden. Wir haben auch eine neue Lösung für dieses Problem herausgebracht.
Sie finden das Papier, indem Sie hier klicken: https://ssrn.com/abstract=3444996
In unserem Artikel stellen wir tatsächlich ein Beispiel vor, in dem das Hinzufügen sehr kleiner Konstanten tatsächlich die höchste Verzerrung bewirkt. Wir geben einen Ausdruck der Voreingenommenheit.
Tatsächlich kann Poisson Pseudo Maximum Likelihood (PPML) als eine gute Lösung für dieses Problem angesehen werden. Man muss den folgenden Prozess berücksichtigen:
Wir zeigen, dass dieser Schätzer unbefangen ist und mit GMM mit jeder Standard-Statistiksoftware einfach geschätzt werden kann. Beispielsweise kann dies geschätzt werden, indem nur eine Codezeile mit Stata ausgeführt wird.
Wir hoffen, dass dieser Artikel helfen kann und freuen uns über Ihr Feedback.
Christophe Bellégo und Louis-Daniel Pape, CREST - Ecole Polytechnique - ENSAE
quelle