Friday 14 July 2017

Kaplan Meier Diagramm In Stata Forex


Demographische Methoden Princeton University Kaplan-Meir Überleben Stata verfügt über ausgezeichnete Einrichtungen für die Überlebensanalyse in kontinuierlicher Zeit, einschließlich der Kaplan-Meier-Schätzer. Ich werde den Schätzer anhand der Gehan-Daten erläutern, die in der Klasse diskutiert werden. Dies sind Wochen vor dem Rezidiv von Krebspatienten in einer Kontrolle und einer behandelten Gruppe (codiert 1 bzw. 2). Das erste, was Sie tun in Stata ist stset die Daten, die die Variable, die Zeit und die Variable, die Ausfälle unterscheidet unterscheidet von zensierten Fällen: Wir erhalten eine nützliche Aussage über die Anzahl der Ausfälle und insgesamt Zeit in Gefahr. Um die Kaplan-Meier-Schätzung nach Gruppe zu berechnen und zu berechnen, verwenden wir sts graph. Sie können punktweise Vertrauensbänder basierend auf Greenwood-Standardfehlern unter Verwendung der gwood-Option erhalten. Zusammen mit der Gruppierung ergeben sich daraus Seite-an-Seite-Diagramme. Um zu sehen, die Schätzung in voller Herrlichkeit Gebrauch ss Liste. Sie sollten in der Lage, alle diese Ergebnisse von Hand, wie wir in der Klasse zu reproduzieren. Kopie 2017 Germaacuten Rodriacuteguez, Princeton UniversityNOTICE: Die IDRE Statistical Consulting Group wird die Migration der Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, Redirects beizubehalten, damit die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen am Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group durch ein Geschenk Statistical Computing Seminare Überlebensanalyse mit Stata Das Stata-Programm, auf dem das Seminar basiert. Die UISsmall-Datei für das Seminar. Das Ziel dieses Seminars ist es, eine kurze Einführung in das Thema der Überlebensanalyse zu geben. Wir verwenden eine kleinere und leicht modifizierte Version des UIS-Datensatzes aus dem Buch Applied Survival Analysis von Hosmer und Lemeshow. Wir ermutigen alle, die Interesse am Lernen der Überlebensanalyse haben, um diesen Text zu lesen, da es eine sehr gute und gründliche Einleitung zum Thema ist. Überlebensanalyse ist nur ein anderer Name für Zeit zu Ereignisanalyse. Der Begriff Überlebensanalyse wird überwiegend in biomedizinischen Wissenschaften verwendet, wo das Interesse daran ist, die Zeit bis zum Tod von Patienten oder von Versuchstieren zu beobachten. Die Zeit bis zur Ereignisanalyse wurde auch in den Sozialwissenschaften weitverbreitet eingesetzt, wo das Interesse daran besteht, die Zeit auf Ereignisse wie Jobwechsel, Heirat, Geburt von Kindern und so weiter zu analysieren. Die Ingenieurwissenschaften haben auch zur Entwicklung der Überlebensanalyse beigetragen, die in diesem Bereich als Zuverlässigkeitsanalyse oder Ausfallzeitanalyse bezeichnet wird, da der Schwerpunkt in der Modellierung der Zeit ist, in der Maschinen oder elektronische Bauteile zerfallen. Die Entwicklungen aus diesen unterschiedlichen Bereichen haben sich zum Großteil auf dem Gebiet der Überlebensanalyse konsolidiert. Für mehr Hintergrund verweisen wir auf die hervorragende Diskussion in Kapitel 1 der Event History Analysis von Paul Allison. Es gibt bestimmte Aspekte von Überlebensanalyse-Daten, wie z. B. Zensur und Nicht-Normalität, die große Schwierigkeiten beim Versuch, die Daten unter Verwendung traditioneller statistischer Modelle, wie z. B. multiple lineare Regression, zu analysieren. Der Nicht-Normalitätsaspekt der Daten verletzt die Normalitätsannahme des am häufigsten verwendeten statistischen Modells wie Regression oder ANOVA usw. Eine zensierte Beobachtung wird als eine Beobachtung mit unvollständigen Informationen definiert. Es gibt vier verschiedene Arten von Zensur möglich: rechts Trunkierung, links Trunkierung, rechts Zensur und links Zensur. Wir konzentrieren uns aus einer Reihe von Gründen ausschließlich auf die richtige Zensur. Die meisten in Analysen verwendeten Daten haben nur eine richtige Zensur. Darüber hinaus ist die Rechtzensur am leichtesten von allen vier Zensurtypen zu verstehen und wenn ein Forscher das Konzept der richtigen Zensur gut verstehen kann, wird es viel einfacher, die anderen drei Typen zu verstehen. Wenn eine Beobachtung richtig zensiert wird, bedeutet dies, dass die Informationen unvollständig sind, weil das Subjekt während der Zeit, in der das Thema Teil der Studie war, kein Ereignis hatte. Der Punkt der Überlebensanalyse ist, Themen im Laufe der Zeit zu verfolgen und zu beobachten, zu welchem ​​Zeitpunkt sie das Ereignis von Interesse erleben. Es kommt oft vor, dass die Studie nicht genug Zeit, um das Ereignis für alle Themen in der Studie zu beobachten. Dies könnte auf eine Reihe von Gründen. Vielleicht fallen Themen aus der Studie aus Gründen, die nicht mit der Studie in Zusammenhang stehen (d. H. Patienten, die sich zu einem anderen Gebiet bewegen und keine Weiterleitungsadresse hinterlassen). Das allgemeine Merkmal aller dieser Beispiele ist, daß, wenn das Thema in der Studie bleiben konnte, dann es möglich gewesen sein würde, die Zeit des Ereignisses schließlich zu beobachten. Es ist wichtig, den Unterschied zwischen Kalenderzeit und Zeit in der Studie zu verstehen. Es ist sehr häufig für die Themen, die Studie kontinuierlich über die gesamte Länge der Studie. Diese Situation spiegelt sich in der ersten Grafik, wo wir die gestaffelte Eintragung von vier Themen sehen können. Rote Punkte kennzeichnen Intervalle, in denen das Ereignis aufgetreten ist, während Intervalle ohne rote Punkte Zensur bedeuten. Es scheint, dass Thema 4 nach nur kurzer Zeit (von einem Bus, sehr tragisch) und dass Thema 3 nicht erlebt ein Ereignis von der Zeit der Studie beendet, aber wenn die Studie hatte länger (mehr Geld) Hätten wir die Zeit gewusst, in der dieses Thema ein Ereignis erlebt hätte. Das andere wichtige Konzept in der Überlebensanalyse ist die Hazardrate. Von der Betrachtung von Daten mit diskreter Zeit (Zeit gemessen in großen Intervallen wie Monat, Jahre oder sogar Jahrzehnte) können wir eine intuitive Vorstellung von der Hazard Rate. Für diskrete Zeit ist die Hazard Rate die Wahrscheinlichkeit, dass ein Individuum ein Ereignis zum Zeitpunkt t erleben wird, während diese Person in Gefahr für ein Ereignis ist. So ist die Hazard Rate wirklich nur die unbeobachtete Rate, bei der Ereignisse auftreten. Wenn die Hazardrate über die Zeit konstant ist und sie gleich 1,5 ist, würde dies zum Beispiel bedeuten, dass in einem Zeitintervall von einer Einheit lang 1,5 Ereignisse erwartet werden. Wenn eine Person zum Zeitpunkt t eine Hazardrate von 1,2 und eine zweite eine Hazardrate von 2,4 zum Zeitpunkt t hatte, wäre es richtig, dass das zweite Personenrisiko eines Ereignisses zum Zeitpunkt t zweimal größer wäre . Es ist wichtig zu erkennen, daß die Hazardrate eine nicht beobachtete Variable ist, aber sie steuert sowohl das Auftreten als auch den Zeitpunkt der Ereignisse. Es ist die grundlegend abhängige Variable in der Überlebensanalyse. Ein weiterer wichtiger Aspekt der Gefährdungsfunktion ist, zu verstehen, wie die Form der Gefährdungsfunktion die anderen interessierenden Variablen wie die Überlebensfunktion beeinflussen wird. Die erste Grafik unten zeigt eine Gefährdungsfunktion mit Wannenform. Dieses Diagramm zeigt die Gefährdungsfunktion für das Überleben von Organtransplantationspatienten. Zur Zeit gleich Null haben sie das Transplantat und da dies eine sehr gefährliche Operation ist, haben sie eine sehr hohe Gefahr (eine große Chance zu sterben). Die ersten 10 Tage nach der Operation sind auch sehr gefährlich mit einer hohen Chance für den Patienten sterben, aber die Gefahr ist geringer als während der eigentlichen Operation und damit die Gefahr ist Rückgang während dieser Zeit. Wenn der Patient am 10. Tag überlebt hat, dann sind sie in sehr guter Form und haben eine sehr geringe Chance, in den folgenden 6 Monaten zu sterben. Nach 6 Monaten beginnen die Patienten eine Verschlechterung zu erleben und die Chancen des Sterbens steigen wieder an und damit beginnt die Gefährdungsfunktion zu steigen. Nach einem Jahr sind fast alle Patienten tot und damit die sehr hohe Gefährdungsfunktion, die weiter zunehmen wird. Die Gefährdungsfunktion scheint nicht wie eine spannende Variable zu modellieren, aber andere Indikatoren von Interesse, wie die Überlebensfunktion, werden aus der Hazardrate abgeleitet. Sobald wir die Hazard-Rate modelliert haben, können wir leicht diese anderen Funktionen von Interesse erhalten. Zusammenfassend ist es wichtig, das Konzept der Gefahrenfunktion zu verstehen und die Form der Gefährdungsfunktion zu verstehen. Ein Beispiel für eine Gefährdungsfunktion für Herztransplantationspatienten. Wir sind generell nicht in der Lage, die Hazard-Funktion zu generieren, sondern wir betrachten gewöhnlich die kumulative Hazard-Kurve. Das Ziel der UIS-Daten ist es, die Zeit bis zur Rückkehr zum Drogenkonsum für Patienten, die in zwei verschiedenen Wohnbehandlungsprogrammen eingeschrieben sind, die sich in der Länge unterscheiden, zu modellieren (behandeln Sie 0 ist das kurze Programm und behandeln 1 ist das lange Programm). Die Patienten wurden zufällig zwei verschiedenen Standorten zugeordnet (Standort 0 ist Standort A und Standort 1 ist Standort B). Herco zeigt Heroin und Kokain, Herco 2 bedeutet Heroin und Kokain, Herco 2 bedeutet Heroin oder Kokain und Herco 3 zeigt weder Heroin noch Kokain an) und ndrugtx zeigt an Anzahl der bisherigen medikamentösen Behandlungen. Die Variable Zeit enthält die Zeit bis zur Rückkehr zum Drogenkonsum und die Zensurvariable gibt an, ob das Subjekt zum Drogenkonsum zurückkehrt (Censor 1 gibt Rückkehr zum Drogenkonsum und Censor 0 sonst an). Schauen wir uns die ersten 10 Beobachtungen des UIS-Datensatzes an. Beachten Sie, dass Thema 5 zensiert und nicht erlebt ein Ereignis, während in der Studie. Beachten Sie auch, dass die Codierung für Censor eher intuitiv ist, da der Wert 1 ein Ereignis angibt und 0 das Zensieren angibt. Es wäre vielleicht besser, diese Variable quoteventquot aufzurufen. In jeder Datenanalyse ist es immer eine gute Idee, univariate Analysen durchzuführen, bevor man zu komplizierteren Modellen weitergeht. In der Überlebensanalyse wird dringend empfohlen, die Kaplan-Meier-Kurven für alle kategorischen Prädiktoren zu betrachten. Dies gibt einen Einblick in die Form der Überlebensfunktion für jede Gruppe und gibt eine Vorstellung davon, ob die Gruppen proportional sind (d. h. die Überlebensfunktionen sind ungefähr parallel). Wir betrachten auch die Tests der Gleichheit quer durch die Schichten zu erkunden, ob oder nicht, um die Prädiktor in das endgültige Modell. Für die kategorialen Variablen verwenden wir den log-rank-Test der Gleichheit über Schichten, der ein nicht-parametrischer Test ist. Für die kontinuierlichen Variablen verwenden wir eine univariable Cox-Proportional-Hazard-Regression, die ein semi-parametrisches Modell ist. Wir werden prüfen, einschließlich der Prädiktor, wenn der Test hat einen p-Wert von 0,2 - 0,25 oder weniger. Wir verwenden dieses Eliminationsschema, weil alle Prädiktoren im Datensatz Variablen sind, die für das Modell relevant sein könnten. Wenn der Prädiktor in einer univariaten Analyse einen p-Wert von mehr als 0,25 aufweist, ist es höchst unwahrscheinlich, dass er zu einem Modell beiträgt, das andere Prädiktoren enthält. Der Log-Rank-Test der Gleichheit über Schichten für die Prädiktor-Behandlung hat einen p-Wert von 0,0091, so behandeln wird ein potentieller Kandidat für das endgültige Modell enthalten. Aus der Grafik sehen wir, dass die Überlebensfunktion für jede Gruppe von Leckereien nicht perfekt parallel, sondern getrennt, außer am Anfang und am Ende sind. Die Überlappung am Ende sollte nicht zu viel Besorgnis erregen, da sie von nur einer sehr wenigen Anzahl zensierter Probanden aus einer Probe mit 628 Probanden bestimmt wird. Grundsätzlich legt der Log-Rank-Test mehr Wert auf Unterschiede in den Kurven zu größeren Zeitwerten. Aus diesem Grund erhalten wir einen so kleinen p-Wert, obwohl die beiden Überlebenskurven für eine Zeit von weniger als 100 Tagen sehr eng beieinander zu sein scheinen. Der Log-Rank-Test der Gleichheit quer durch die Schichten für die Prädiktor-Site hat einen p-Wert von 0,1240, daher wird der Standort als potentieller Kandidat für das endgültige Modell eingeschlossen, da dieser p-Wert immer noch kleiner ist als der Cut-Off von 0,2. Aus der Grafik sehen wir, dass die Überlebenskurven nicht alle parallel sind und dass es zwei Perioden (0, 100 und 200, 300) gibt, wo die Kurven sehr eng beieinander liegen. Dies würde den eher hohen p-Wert aus dem Log-Rank-Test erklären. Der Log-Rank-Test für die Gleichberechtigung über die Schichten für den Prädiktor Herco hat einen p-Wert von 0,1473, so wird Herco als potenzieller Kandidat für das endgültige Modell aufgenommen werden. Aus dem Graphen sehen wir, dass die drei Gruppen nicht parallel sind und dass insbesondere die Gruppen herco 1 und herco 3 für die meisten Graphen überlappen. Dieser Mangel an Parallelität könnte ein Problem darstellen, wenn wir diesen Prädiktor in das Cox-Proportional-Hazard-Modell einbeziehen, da eine der Annahmen die Proportionalität der Prädiktoren ist. Es ist nicht möglich, eine Kaplan-Meier-Kurve für die kontinuierlichen Prädiktoren zu berechnen, da es für jede Stufe des Prädiktors eine Kurve geben würde und ein kontinuierlicher Prädiktor einfach zu viele verschiedene Ebenen hat. Stattdessen betrachten wir das Cox-Proportional-Hazard-Modell mit einem einzigen kontinuierlichen Prädiktor. Leider ist es nicht möglich, einen Plot zu erzeugen, wenn Sie den Befehl stcox verwenden. Stattdessen betrachten wir den Chi-Quadrat-Test für ndrugtx, der einen p-Wert von 0,0003 aufweist, also ist ndrugtx ein potentieller Kandidat für das endgültige Modell, da der p-Wert kleiner als unser Cut-off-Wert von 0,2 ist. Wir geben die Option nohr an, um anzuzeigen, dass wir die Hazard-Ratio nicht sehen wollen, sondern wir wollen die Koeffizienten betrachten. In diesem Modell hat die Chi-Quadrat-Test des Alters auch einen p-Wert von weniger als 0,2 und so ist es ein potentieller Kandidat für das endgültige Modell. Für unser Modellbau wird zunächst das Modell betrachtet, das alle Prädiktoren enthält, die in den univariaten Analysen einen p-Wert von weniger als 0,2 - 0,25 aufweisen, was in dieser Analyse bedeutet, dass wir jeden Prädiktor in unser Modell aufnehmen werden. Die kategorische Prädiktor Herco hat drei Ebenen und daher werden wir diese Vorhersage mit Dummy-Variable mit der Gruppe herco 1 als Referenzgruppe. Wir können diese Dummy-Variablen on the fly zu erstellen, indem Sie den Befehl xi mit Stcox. Die Vorhersage Herco ist eindeutig nicht signifikant und wir werden es aus dem endgültigen Modell fallen. Die Prädiktor-Website ist auch nicht signifikant, aber aus früheren Forschung wissen wir, dass dies eine sehr wichtige Variable, um in der endgültigen Modell haben und daher werden wir nicht beseitigen Standort aus dem Modell. Also, das endgültige Modell der wichtigsten Auswirkungen sind: Alter. Ndrugtx. Behandeln und Website. Als nächstes müssen wir Interaktionen in Erwägung ziehen. Wir haben keine Vorkenntnisse über spezifische Interaktionen, die wir einbeziehen müssen, damit wir alle möglichen Wechselwirkungen berücksichtigen werden. Da unser Modell eher klein ist, ist dies überschaubar, aber die ideale Situation ist, wenn alle Modellbau, einschließlich Interaktionen, Theorie angetrieben werden. Die Interaktionszeit des Alters mit ndrugtx ist nicht signifikant und wird nicht in das Modell aufgenommen. Die Wechselwirkung Alter und Behandlung ist nicht signifikant und wird nicht in das Modell aufgenommen werden. Das Interaktionsalter und der Standort sind signifikant und werden in das Modell aufgenommen. Die Interaktion Droge anf behandeln ist nicht signifikant und wird nicht in das Modell aufgenommen werden. Die Interaktion Droge und Website ist nicht signifikant und wird nicht in das Modell aufgenommen werden. Die Interaktion zu behandeln und Website ist nicht signifikant und wird nicht in das Modell aufgenommen werden. Das endgültige Modell einschließlich Interaktion. Jetzt können wir sehen, warum es wichtig war, Site in unserem Modell einzuschließen, da vorherige Forschung vorgeschlagen hatte, weil es sich herausstellt, dass Standort an der einzigen signifikanten Interaktion im Modell beteiligt ist. Wir können das Modell mit der Interaktion mit dem Modell vergleichen, ohne die Interaktion mit dem lrtest-Befehl, da die Modelle verschachtelt sind. Der signifikante lrtest zeigt, dass wir die Nullhypothese zurückweisen, dass die beiden Modelle die Daten gleich gut passen und daraus schließen, dass das größere Modell mit der Interaktion die Daten besser passt als das kleinere Modell, das die Interaktion nicht einschloss. Das endgültige Modell und die Interpretation der Hazard Ratios. Aus der Betrachtung der Hazard Ratios (auch relative Risiken genannt) zeigt das Modell an, dass die Anzahl der vorherigen Medikamente (ndrugtx) um eine Einheit steigt und alle anderen Variablen konstant gehalten werden, die Rate des Rückfalls um 3,7. Wenn die Behandlungslänge von kurz bis lang verändert wird, während alle anderen Variablen konstant gehalten werden, sinkt die Rückfallrate um (100 - 76,5) 23,5. Wenn die Behandlung von der Stelle A zu der Stelle B verschoben wird und das Alter gleich Null ist und alle anderen Variablen konstant gehalten werden, sinkt die Rückfallrate um (100 - 28,8) 71,2. Diese Ergebnisse basieren alle auf der Ausgabe unter Verwendung von Hazard-Verhältnissen. Um die Variablen, die an einem Interaktionsterminal beteiligt sind, wie Alter und Standort in unserem Modell, zu diskutieren, müssen wir die Rohkoeffizienten verwenden und hier sind sie nur zur Vereinfachung aufgelistet. Ein Vergleich von 2 Probanden innerhalb der Stelle A (Standort 0), ein Anstieg des Alters von 5 Jahren, während alle anderen Variablen konstant gehalten werden, ergibt eine Hazard Ratio gleich exp (-0,033695) .84497351. So ist die Rate des Rückfalls um (100 - 84,5) 15,5 mit einem Anstieg von 5 Jahren verringert. Beim Vergleich von 2 Probanden innerhalb der B-Stelle ergibt sich eine Erhöhung des Alters von 5 Jahren bei gleichzeitiger gleichzeitiger Haltung aller anderen Variablen zu einer Hazard-Ratio, die exp (-0,033695 0,033775) 1,0004 entspricht. Somit bleibt die Rückfallrate für die Probanden an der Stelle B ziemlich flach, da 1.0004, wenn sie so nahe bei 1 ist. Eine der Hauptannahmen des Cox-Proportional-Hazard-Modells ist die Proportionalität. Es gibt mehrere Methoden, um zu überprüfen, ob ein Modell die Annahme der Proportionalität erfüllt, und weitere Informationen dazu finden Sie in unseren FAQ-Tests der Proportionalität in SAS, Stata, SPLUS und R. Wir werden die Proportionalität durch Einbeziehung zeitabhängiger Kovariate in die Modell, indem Sie die tvc und die texp Optionen im Befehl stcox verwenden. Zeitabhängige Kovariaten sind Interaktionen der Prädiktoren und Zeit. In dieser Analyse verwenden wir die Interaktionen mit log (Zeit), weil dies die häufigste Funktion der Zeit ist, die in zeitabhängigen Kovariaten verwendet wird, aber jede Funktion der Zeit verwendet werden könnte. Wenn eine zeitabhängige Kovariate signifikant ist, zeigt dies eine Verletzung der Proportionalitätsannahme für diesen spezifischen Prädiktor an. Die Schlussfolgerung ist, dass alle zeitabhängigen Variablen entweder kollektiv oder einzeln nicht signifikant sind und somit die Annahme von proportionaler Gefährdung unterstützen. Eine weitere Methode zur Prüfung der Proportionalitätsannahme ist die Verwendung der Schoenfeld - und skalierten Schoenfeld-Residuen, die erst durch den Befehl stcox gespeichert werden müssen. In dem Befehl stphtest testen wir die Proportionalität des Modells als Ganzes und unter Verwendung der Detailoption erhalten wir für jeden Prädiktor eine Proportionalitätsprüfung. Unter Verwendung der Plotoption können wir auch einen Graphen der skalierten Schoenfeld-Annahme erhalten. Wenn die Tests in der Tabelle nicht signifikant sind (p-Werte über 0,05), können wir die Proportionalität nicht ablehnen, und wir gehen davon aus, dass wir keine Verletzung der proportionalen Annahme haben. Eine horizontale Linie in den Graphen ist ein weiterer Hinweis, dass es keine Verletzung der Proportionalitätsannahme gibt. Der Befehl stphplot verwendet Protokollprotokolle, um die Proportionalität zu testen, und wenn die Zeilen in diesen Parametern parallel sind, haben wir weitere Hinweise darauf, dass die Prädiktoren die Proportionalitätsannahme nicht verletzen. Die Prädiktor-Behandlung könnte eine genauere Untersuchung rechtfertigen, da sie einen signifikanten Test aufweist und die Kurve im Graphen nicht vollständig horizontal ist. Das Diagramm aus dem Befehl stphplot weist keine vollständig parallelen Kurven auf. Allerdings entscheiden wir uns, die Behandlung im Modell unverändert auf der Grundlage vorheriger Forschung zu verlassen. Wenn einer der Prädiktoren nicht proportional wäre, gibt es verschiedene Lösungen zu berücksichtigen. Eine Lösung besteht darin, die zeitabhängige Variable für die nichtproportionalen Prädiktoren einzuschließen. Eine andere Lösung ist, auf dem nichtproportionalen Prädiktor zu stratifizieren. Das folgende ist ein Beispiel der Schichtung auf der Prädiktor-Behandlung. Beachten Sie, dass treat nicht mehr in der model - Anweisung enthalten ist, sondern in der strata - Anweisung angegeben. Die Parameterschätzungen sind fast die gleichen für jede Ebene der Behandlung, die weiter zeigt, dass die Behandlung ist wirklich proportional. Wenn die Behandlung wirklich die Annahme der Verhältnismäßigkeit verletze, würden wir erwarten, dass sich die Schätzungen unterscheiden. Die Schätzungen sind auch sehr ähnlich zu den Schätzungen aus dem Modell einschließlich Behandlung als Prädiktor. Jedes Kovariate-Muster hat eine andere Überlebensfunktion. Die Standardüberlebensfunktion ist für das Kovariate-Muster, bei dem jeder Prädiktor gleich Null gesetzt wird. Jedoch ist für viele Prädiktoren dieser Wert nicht sinnvoll, da dieser Wert außerhalb der Daten wie dem Alter 0 liegt. Es wäre viel nützlicher, ein exaktes Kovariate-Muster zu spezifizieren und eine Überlebensfunktion für Subjekte mit dem spezifischen Kovariate-Muster zu erzeugen. Im folgenden Beispiel wollen wir die Überlebensfunktion für ein 30-jähriges Patient (Alter 30) graphisch darstellen, 5 vorherige medikamentöse Behandlungsmethoden (ndrugtx 5) gehabt haben und die Behandlung vor Ort A (Behandlung 1) Stelle 0 und Agesite 300 0). Wir geben zunächst die Baseline-Überlebensfunktion für das Kovariate-Muster aus, wobei alle Prädiktoren auf Null gesetzt sind. Dann heben wir die Baseline-Überlebensfunktion auf die exponentielle zu der linearen Kombination der Koeffizienten und den Werten der Kovariaten in dem interessierenden Kovariate-Muster an. Somit wäre in diesem speziellen Fall die Linearkombination: -0,0336943300.03645375 - 0,22641131 - 1.2459280 - .03377280. Das Betrachten der Überlebensfunktion für ein Kovariate-Muster ist manchmal nicht ausreichend. Es ist oft sehr nützlich, einen Graphen zu haben, wo wir die Überlebensfunktionen verschiedener Gruppen vergleichen können. Im folgenden Beispiel wird ein Graphen mit den Überlebensfunktionen für die beiden Behandlungsgruppen erstellt, bei denen alle Probanden 30 Jahre alt sind (30 Jahre alt), 5 vorherige medikamentöse Behandlungen (ndrugtx 5) hatten und derzeit am Standort A behandelt werden 0 und Agesite 3000). So unterscheiden sich die beiden kovariate Muster nur in ihren Werten für die Behandlung. Wir können die Anpassung des Modells anhand der Cox-Snell-Residuen bewerten. Wenn das Modell in die Datenvertiefung passt, dann ist die wahre kumulative Hazardfunktion, die an den Kovariate-Vektor gebunden ist, eine exponentielle Verteilung mit einer Hazardrate von eins. Dies entspricht dem Anpassen des Modells mit dem Befehl stcox und der Angabe der mgale-Option, die die Martingalresiduen erzeugt. Anschließend verwenden wir den Befehl predict mit der Option csnell, um die Cox-Snell-Residuen für das Modell zu generieren. Wir setzen die Daten mit dem stset-Befehl unter Angabe der Variablen cs zurück. Die Variable, die die Cox-Snell-Reste enthält, als Zeitvariable. Wir verwenden dann den sts-Befehl, um die kumulative Nelson-Aalen-Hazard-Funktion zu erstellen. Schließlich zeigen wir die kumulative Nelson-Aalen-Hazard-Funktion und die cs-Variable, so dass wir die Hazard-Funktion mit der diagonalen Linie vergleichen können. Wenn die Gefährdungsfunktion der 45-Grad-Linie folgt, dann wissen wir, dass sie ungefähr eine exponentielle Verteilung mit einer Hazardrate von eins aufweist und dass das Modell die Datenvertiefung passt. Wir sehen, dass die Hazard-Funktion der 45-Grad-Linie sehr eng mit Ausnahme sehr großer Zeitwerte folgt. Es ist sehr häufig für Modelle mit zensierten Daten, um einige wiggling bei großen Werten der Zeit haben und es ist nicht etwas, das viel Sorge verursachen sollte. Insgesamt würden wir schließen, dass das endgültige Modell passt die Daten sehr gut. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.

No comments:

Post a Comment