Ich lerne die Überlebensanalyse aus diesem Beitrag über UCLA IDRE und bin in Abschnitt 1.2.1 aufgefallen . Das Tutorial sagt:
... wenn bekannt ist, dass die Überlebenszeiten exponentiell verteilt sind , dann die Wahrscheinlichkeit, eine Überlebenszeit zu beobachten ...
Warum wird angenommen, dass die Überlebenszeiten exponentiell verteilt sind? Es erscheint mir sehr unnatürlich.
Warum nicht normal verteilt? Angenommen, wir untersuchen die Lebensspanne einer Kreatur unter bestimmten Bedingungen (z. B. Anzahl der Tage). Sollte sie sich mehr um eine Zahl mit einer gewissen Varianz drehen (z. B. 100 Tage mit einer Varianz von 3 Tagen)?
Wenn wir wollen, dass die Zeit absolut positiv ist, warum nicht eine Normalverteilung mit höherem Mittelwert und sehr geringer Varianz erstellen (es gibt fast keine Chance, eine negative Zahl zu erhalten)?
quelle
Antworten:
Exponentialverteilungen werden häufig zur Modellierung der Überlebenszeiten verwendet, da sie die einfachsten Verteilungen sind, die zur Charakterisierung von Überlebens- / Zuverlässigkeitsdaten verwendet werden können. Dies liegt daran, dass sie memorylos sind und die Hazard-Funktion daher eine konstante W / R / T-Zeit ist, was die Analyse sehr einfach macht. Diese Art von Annahme kann zum Beispiel für einige Arten von elektronischen Bauteilen gelten, wie zum Beispiel für hochwertige integrierte Schaltungen. Ich bin sicher, Sie können sich weitere Beispiele vorstellen, bei denen davon ausgegangen werden kann, dass der Einfluss der Zeit auf die Gefahr vernachlässigbar ist.
Sie haben jedoch Recht zu bemerken, dass dies in vielen Fällen keine angemessene Annahme wäre. Normalverteilungen können in manchen Situationen in Ordnung sein, obwohl offensichtlich negative Überlebenszeiten bedeutungslos sind. Aus diesem Grund werden häufig logarithmische Normalverteilungen in Betracht gezogen. Andere gebräuchliche Auswahlmöglichkeiten sind Weibull, Kleinster Extremwert, Größter Extremwert, Logistik usw. Eine sinnvolle Wahl für das Modell würde durch die Erfahrung des Fachgebiets und die Darstellung der Wahrscheinlichkeit getroffen . Natürlich können Sie auch eine nicht parametrische Modellierung in Betracht ziehen.
Eine gute Referenz für die klassische parametrische Modellierung in der Überlebensanalyse ist: William Q. Meeker und Luis A. Escobar (1998). Statistische Methoden für Zuverlässigkeitsdaten , Wiley
quelle
Um ein bisschen mathematische Intuition dahinter zu bringen, wie Exponenten in Überlebensverteilungen auftauchen:
Die Wahrscheinlichkeitsdichte einer Überlebensvariablen ist , wobei h ( t ) die aktuelle Gefahr ist (Risiko für eine Person, an diesem Tag zu "sterben") und S ( t ) die Wahrscheinlichkeit, dass eine Person bis t überlebt . S ( t ) kann erweitert werden als die Wahrscheinlichkeit, dass eine Person Tag 1 und Tag 2 ... bis Tag t überlebt hat . Dann: P ( s u r v if( t ) = h ( t ) S( t ) h ( t ) S( t ) t S( t ) t P ( s u r v i v e d d a y s 1 , 2 , . . . , t ) = ( 1 - h ( t ) ) t
mit konstante und kleine Gefahr λ können wir verwenden:
e - λ ≈ 1 -
Haftungsausschluss: Dies ist in keiner Weise ein Versuch, eine korrekte Ableitung des PDF-Dokuments zu erreichen. Ich habe nur gedacht, dass dies ein ordentlicher Zufall ist, und begrüße Kommentare dazu, warum dies richtig / falsch ist.
BEARBEITEN: die Annäherung per Hinweis von @SamT geändert, siehe Kommentare zur Diskussion.
quelle
Sie werden mit ziemlicher Sicherheit Zuverlässigkeitstechniken und Vorhersagen zur gründlichen Analyse der Überlebenszeiten heranziehen wollen. Innerhalb dessen gibt es einige Distributionen, die häufig verwendet werden:
Die Weibull-Verteilung (oder "Badewanne" -Verteilung) ist die komplexeste. Es gibt drei Arten von Fehlermodi, die in verschiedenen Altersstufen vorherrschen: Säuglingssterblichkeit (bei denen defekte Teile früh brechen), verursachte Fehler (bei denen Teile während der gesamten Lebensdauer des Systems zufällig brechen) und Verschleiß (bei denen Teile abbrechen) verwenden). Wie verwendet, hat es ein PDF, das wie "\ __ /" aussieht. Insbesondere bei einigen elektronischen Geräten kann es zu Einbrennzeiten kommen. Dies bedeutet, dass diese Teile bereits über den "\" - Teil der Kurve gesteuert wurden und frühzeitige Ausfälle (im Idealfall) ausgeschlossen wurden. Leider bricht die Weibull-Analyse schnell zusammenWenn Ihre Teile nicht homogen sind (einschließlich der Verwendungsumgebung!) oder wenn Sie sie zu unterschiedlichen Zeitpunkten verwenden (z. B. wenn einige Teile direkt verwendet werden und andere Teile zuerst eingelagert werden, wird die "zufällige Ausfallrate" erhöht aufgrund der Mischung von zwei Zeitmessungen (Betriebsstunden vs. Nutzungsstunden) signifikant unterschiedlich sein.
Normalverteilungen sind fast immer falsch. Jede Normalverteilung hat negative Werte, keine Zuverlässigkeitsverteilung. Sie können manchmal eine nützliche Annäherung sein, aber wenn dies zutrifft, sehen Sie sowieso fast immer eine logarithmische Normalität, sodass Sie auch einfach die richtige Verteilung verwenden können. Log-Normal-Verteilungen werden korrekt verwendet, wenn Sie abnutzende und vernachlässigbare zufällige Fehler haben, und unter keinen anderen Umständen! Wie die Normalverteilung sind sie so flexibel, dass Sie sie für die meisten Daten zwingen können. Sie müssen diesem Drang widerstehen und prüfen, ob die Umstände sinnvoll sind.
Schließlich ist die Exponentialverteilung das eigentliche Arbeitspferd. Sie wissen oft nicht, wie alt Teile sind (z. B. wenn Teile nicht serialisiert sind und zu unterschiedlichen Zeiten in Betrieb genommen wurden), sodass eine speicherbasierte Verteilung nicht möglich ist. Zusätzlich haben viele Teile eine Abnutzungszeit, die so beliebig lang ist, dass sie entweder vollständig von induzierten Ausfällen oder außerhalb des nützlichen Zeitrahmens der Analyse dominiert wird. Es ist also vielleicht kein so perfektes Modell wie andere Distributionen, aber es kümmert sich nicht um Dinge, die sie auslösen. Wenn Sie eine MTTF (Population Time / Failure Count) haben, haben Sie eine exponentielle Verteilung. Darüber hinaus benötigen Sie kein physikalisches Verständnis Ihres Systems. Sie können exponentielle Schätzungen tun nurbasierend auf beobachteten Teil-MTTFs (unter der Annahme einer ausreichend großen Stichprobe), und sie kommen ziemlich nah raus. Es ist auch widerstandsfähig gegen Ursachen: Wenn sich jemand jeden zweiten Monat langweilt und mit einem Teil Krocket spielt, bis es kaputt geht, werden exponentielle Gründe dafür herangezogen (es rollt in die MTTF). Exponential ist auch so einfach, dass Sie Back-of-the-Envelope-Berechnungen für die Verfügbarkeit redundanter Systeme und ähnlicher Systeme durchführen können, was die Nützlichkeit erheblich erhöht.
quelle
Um Ihre explizite Frage zu beantworten, können Sie die Normalverteilung nicht zum Überleben verwenden, da die Normalverteilung gegen unendlich geht und das Überleben absolut nicht negativ ist. Darüber hinaus glaube ich nicht, dass es wahr ist, dass "Überlebenszeiten von niemandem in der Realität als exponentiell verteilt angenommen werden".
Am häufigsten sind Überlebensverteilungen komplex und passen nicht gut zu einer benannten Verteilung. Die Leute machen sich normalerweise nicht einmal die Mühe, herauszufinden, um welche Verteilung es sich handelt. Das macht das Cox-Modell für proportionale Gefährdungen so beliebt: Es ist semiparametrisch, da das Grundlinienrisiko vollständig nicht spezifiziert werden kann, während der Rest des Modells hinsichtlich seiner Beziehung zur nicht spezifizierten Grundlinie parametrisch sein kann.
quelle
Eine gewisse Ökologie könnte helfen, das "Warum" hinter dieser Frage zu beantworten.
Der Grund, warum die Exponentialverteilung zur Modellierung des Überlebens herangezogen wird, liegt in den Lebensstrategien der in der Natur lebenden Organismen. In Bezug auf die Überlebensstrategie gibt es im Wesentlichen zwei Extreme, wobei ein gewisser Spielraum für den Mittelweg besteht.
Hier ist ein Bild, das zeigt, was ich meine (mit freundlicher Genehmigung der Khan Academy):
In diesem Diagramm werden überlebende Personen auf der Y-Achse und "Prozentsatz der maximalen Lebenserwartung" (auch als Annäherung an das Alter der Person bezeichnet) auf der X-Achse dargestellt.
Typ I ist der Mensch, der Organismen modelliert, deren Nachkommen extrem gepflegt sind und eine sehr niedrige Kindersterblichkeit gewährleisten. Häufig haben diese Arten nur sehr wenige Nachkommen, da jeder einen großen Teil der Zeit und Mühe der Eltern in Anspruch nimmt. Die meisten Todesfälle von Organismen des Typs I sind die im Alter auftretenden Komplikationen. Die Strategie ist hier eine hohe Investition für eine hohe Auszahlung in ein langes, produktives Leben, wenn auch auf Kosten der bloßen Zahlen.
Im Gegensatz dazu wird Typ III von Bäumen modelliert (es können aber auch Plankton, Korallen, Laichfische, viele Arten von Insekten usw. sein), bei denen die Eltern relativ wenig in jeden Nachwuchs investieren, aber eine Tonne von ihnen hervorbringen, in der Hoffnung, dass einige es tun werden überleben. Die Strategie hier ist "sprühen und beten", in der Hoffnung, dass die meisten Nachkommen zwar relativ schnell von Raubtieren vernichtet werden, die wenigen jedoch, die lange genug überleben, um zu wachsen, immer schwieriger zu töten werden und schließlich (praktisch) unmöglich werden gegessen. Währenddessen bringen diese Individuen eine große Anzahl von Nachkommen hervor, in der Hoffnung, dass einige ebenfalls in ihrem eigenen Alter überleben werden.
Typ II ist eine mittelmäßige Strategie mit moderaten Investitionen der Eltern für eine moderate Überlebensfähigkeit in jedem Alter.
Ich hatte einen Ökologieprofessor, der das so formulierte:
"Typ III (Bäume) ist die" Kurve der Hoffnung ", denn je länger ein Individuum überlebt, desto wahrscheinlicher wird es, dass es weiterhin überlebt. Typ I (Menschen) ist die" Kurve der Verzweiflung ", denn je länger du lebst, desto wahrscheinlicher wird es, dass du sterben wirst. "
quelle
Dies beantwortet die Frage nicht direkt, aber ich denke, es ist sehr wichtig zu erwähnen, und passt nicht gut in einen einzelnen Kommentar.
Während die Exponentialverteilung eine sehr gute theoretische Ableitung hat und die erzeugten Daten daher den in der Exponentialverteilung angenommenen Mechanismen folgen, sollte sie theoretisch optimale Schätzungen liefern. In der Praxis muss ich noch auf einen Datensatz stoßen, bei dem die Exponentialverteilung gerade erzeugt Nähe zu akzeptablen Ergebnissen (natürlich ist dies abhängig von den Datentypen I analysiert haben, fast alle biologischen Daten). Ich habe zum Beispiel gerade versucht, ein Modell mit einer Vielzahl von Verteilungen unter Verwendung des ersten Datensatzes anzupassen, den ich in meinem R-Paket finden konnte. Zur Überprüfung des Modells der Basisverteilung vergleichen wir normalerweise das semiparametrische Modell. Schauen Sie sich die Ergebnisse an.
Bei der Weibull-, log-logistischen und log-normalen Verteilung gibt es keinen absolut klaren Sieger in Bezug auf die richtige Anpassung. Aber es gibt einen klaren Verlierer: die Exponentialverteilung! Ich habe die Erfahrung gemacht, dass dieses Ausmaß der Fehlanpassung keine Ausnahme darstellt, sondern eher die Norm für die Exponentialverteilung.
Warum? Weil die Exponentialverteilung eine einzelne Parameterfamilie ist. Wenn ich also den Mittelwert dieser Verteilung spezifiziere, habe ich alle anderen Momente der Verteilung spezifiziert. Diese anderen Familien sind alle zwei Parameterfamilien. Dadurch haben diese Familien eine viel größere Flexibilität, um sich an die Daten selbst anzupassen.
Denken Sie nun daran, dass die Weibull-Verteilung als Sonderfall die Exponentialverteilung hat (dh wenn der Formparameter = 1 ist). Selbst wenn die Daten wirklich exponentiell sind, fügen wir unseren Schätzungen nur ein wenig mehr Rauschen hinzu, indem wir eine Weibull-Verteilung über eine Exponentialverteilung verwenden. Daher würde ich niemals empfehlen, die Exponentialverteilung zu verwenden, um reale Daten zu modellieren (und ich bin gespannt, ob Leser ein Beispiel dafür haben, wann dies tatsächlich eine gute Idee ist).
quelle
Ein weiterer Grund, warum die Exponentialverteilung häufig auftritt, um das Intervall zwischen Ereignissen zu modellieren, ist der folgende.
Es ist allgemein bekannt, dass unter bestimmten Voraussetzungen die Summe einer großen Anzahl unabhängiger Zufallsvariablen einer Gaußschen Verteilung nahe kommt. Ein ähnliches Theorem gilt für Erneuerungsprozesse , dh für stochastische Modelle für Ereignisse, die zeitlich zufällig mit IID-Intervallen zwischen Ereignissen auftreten. Tatsächlich besagt das Palm-Khintchine-Theorem , dass sich die Überlagerung einer großen Anzahl von (nicht unbedingt poissonschen) Erneuerungsprozessen asymptotisch wie ein Poisson-Prozess verhält . Die Zwischenereignisintervalle eines Poisson-Prozesses sind exponentiell verteilt.
quelle
tl; dr - Eine Expontentialverteilung ist gleichbedeutend mit der Annahme, dass Individuen zu jedem Zeitpunkt genauso wahrscheinlich sterben wie alle anderen.
Ableitung
Nehmen Sie an, dass ein lebendes Individuum zu jedem Zeitpunkt genauso wahrscheinlich stirbt wie zu jedem anderen.
Die Bevölkerung folgt also einer exponentiellen Verteilung.
Mathe-Hinweis
Reality-Check
Die exponentielle Verteilung geht davon aus, dass Menschen in der Bevölkerung im Laufe der Zeit tendenziell mit der gleichen Rate sterben. In Wirklichkeit werden die Sterbeziffern für endliche Bevölkerungsgruppen tendenziell variieren.
Um bessere Verteilungen zu erzielen, sind stochastische Differentialgleichungen erforderlich . Dann können wir nicht sagen, dass es eine konstante Todeswahrscheinlichkeit gibt; Vielmehr müssen wir eine Verteilung für die Sterbewahrscheinlichkeiten jedes Einzelnen zu einem bestimmten Zeitpunkt erstellen, dann diese verschiedenen Möglichkeitsbäume für die gesamte Bevölkerung kombinieren und diese Differentialgleichung im Laufe der Zeit lösen.
Ich kann mich nicht erinnern, dass ich das in irgendetwas zuvor online gesehen habe, also werden Sie wahrscheinlich nicht darauf stoßen. Dies ist jedoch der nächste Modellierungsschritt, wenn Sie die Exponentialverteilung verbessern möchten.
quelle
(Beachten Sie, dass in dem von Ihnen zitierten Teil die Aussage bedingt war; der Satz selbst hat kein exponentielles Überleben angenommen, sondern eine Konsequenz daraus. Dennoch ist die Annahme eines exponentiellen Überlebens weit verbreitet, weshalb es sich lohnt, sich mit der Frage des "Warum" zu befassen exponentiell "und" warum nicht normal "- da das erste schon ziemlich gut abgedeckt ist, werde ich mich mehr auf das zweite konzentrieren)
Normalerweise verteilte Überlebenszeiten sind nicht sinnvoll, da die Wahrscheinlichkeit, dass die Überlebenszeit negativ ist, ungleich Null ist.
Wenn Sie Ihre Überlegung dann auf Normalverteilungen beschränken, bei denen die Wahrscheinlichkeit nahezu null ist, können Sie keine Überlebensdaten modellieren, bei denen die Wahrscheinlichkeit einer kurzen Überlebenszeit vernünftig ist:
Möglicherweise sind gelegentlich Überlebenszeiten, bei denen es kaum zu kurzen Überlebenszeiten kommt, vernünftig, aber Sie benötigen Verteilungen, die in der Praxis sinnvoll sind. In der Regel beobachten Sie kurze und lange Überlebenszeiten (und alles dazwischen) mit einer typischen Abweichung Verteilung der Überlebenszeiten). Eine unveränderte Normalverteilung ist in der Praxis selten sinnvoll.
[Eine verkürzte Normale ist möglicherweise häufiger eine vernünftige grobe Annäherung als eine Normale, aber andere Verteilungen sind häufig besser.]
Das konstante Risiko des Exponentials ist manchmal eine vernünftige Annäherung an die Überlebenszeiten. Wenn beispielsweise "zufällige Ereignisse" wie Unfälle einen wesentlichen Beitrag zur Sterblichkeit leisten, funktioniert das exponentielle Überleben ziemlich gut. (Bei Tierpopulationen können zum Beispiel sowohl Raubtiere als auch Krankheiten manchmal zumindest grob wie ein Zufallsprozess wirken und so etwas wie ein Exponentielles als sinnvolle erste Annäherung an die Überlebenszeiten zurücklassen.)
In der Tat könnte das ein bisschen besser sein ... aber beachten Sie, dass dies einer unendlichen Gefahr bei 0 entspricht, so dass es nur gelegentlich nützlich wäre. Während es Fälle mit einem sehr hohen Anteil an sehr kurzen Überlebenszeiten modellieren kann, besteht das umgekehrte Problem darin, dass es nur Fälle modellieren kann, die in der Regel ein viel kürzeres als das durchschnittliche Überleben aufweisen (25% der Überlebenszeiten liegen unter 10,15% der mittleren Überlebenszeit und Die Hälfte der Überlebenszeiten liegt unter 45,5% des Mittelwerts, das heißt, das mittlere Überleben liegt unter der Hälfte des Mittelwerts.)
quelle
weil
das hat immer noch eine ungleich Null Wahrscheinlichkeit negativ zu sein, also ist es nicht streng positiv;
Der Mittelwert und die Varianz können anhand der Population gemessen werden, die Sie modellieren möchten. Wenn Ihre Population einen Mittelwert von 2 und eine Varianz von 1 hat und Sie sie mit einer Normalverteilung modellieren, hat diese Normalverteilung eine erhebliche Masse unter Null. Wenn Sie es mit einer Normalverteilung mit Mittelwert 5 und Varianz 0,1 modellieren, hat Ihr Modell offensichtlich sehr andere Eigenschaften als das, was es modellieren soll.
Die Normalverteilung hat eine bestimmte Form und diese Form ist symmetrisch zum Mittelwert. Die einzige Möglichkeit, die Form anzupassen, besteht darin, sie nach rechts und links zu verschieben (den Mittelwert zu erhöhen oder zu verringern) oder sie mehr oder weniger zu verteilen (die Varianz zu erhöhen oder zu verringern). Dies bedeutet, dass die einzige Möglichkeit, eine Normalverteilung zu erhalten, bei der der größte Teil der Masse zwischen zwei und zehn liegt und nur ein winziger Teil der Masse unter null liegt, ein Mittelwert von beispielsweise sechs (der Mitte des Bereichs) erforderlich ist ) und stellen Sie die Varianz so klein ein, dass nur ein winziger Bruchteil der Proben negativ ist. Aber dann werden Sie wahrscheinlich feststellen, dass die meisten Ihrer Samples 5, 6 oder 7 sind, wohingegen Sie ziemlich viele 2s, 3s, 4s, 8s, 9s und 10s haben sollten.
quelle