生存分析涉及預(yù)測(cè)特定事件發(fā)生的時(shí)間。 它也被稱(chēng)為失敗時(shí)間分析或分析死亡時(shí)間。 例如預(yù)測(cè)癌癥患者的生存天數(shù)或預(yù)測(cè)機(jī)械系統(tǒng)出現(xiàn)故障的時(shí)間。
R中的軟件包:survival用于進(jìn)行生存分析。該包中含有Surv()函數(shù),它將輸入數(shù)據(jù)作為R公式,并在所選變量中創(chuàng)建一個(gè)生存對(duì)象進(jìn)行分析。然后使用survfit()函數(shù)來(lái)創(chuàng)建分析圖。
install.packages("survival")
語(yǔ)法
在R中創(chuàng)建生存分析的基本語(yǔ)法是 -
Surv(time,event)
survfit(formula)
以下是使用的參數(shù)的描述 -
考慮上面安裝的survival包中存在的名為“pbc”的數(shù)據(jù)集。 它描述了肝臟原發(fā)性膽汁性肝硬化(PBC)患者的生存數(shù)據(jù)。在數(shù)據(jù)集中存在的許多列中,我們主要關(guān)注"time"和"status"字段。時(shí)間(time)表示在患者接受肝臟移植或患者死亡的患者之間登記患者和事件之前的天數(shù)。
setwd("F:/worksp/R")
# Load the library.
library("survival")
# Print first few rows.
print(head(pbc))
當(dāng)我們執(zhí)行上面的代碼,它產(chǎn)生以下結(jié)果 -
id time status trt age sex ascites hepato spiders edema bili chol
1 1 400 2 1 58.76523 f 1 1 1 1.0 14.5 261
2 2 4500 0 1 56.44627 f 0 1 1 0.0 1.1 302
3 3 1012 2 1 70.07255 m 0 0 0 0.5 1.4 176
4 4 1925 2 1 54.74059 f 0 1 1 0.5 1.8 244
5 5 1504 1 2 38.10541 f 0 1 1 0.0 3.4 279
6 6 2503 2 2 66.25873 f 0 1 0 0.0 0.8 248
albumin copper alk.phos ast trig platelet protime stage
1 2.60 156 1718.0 137.95 172 190 12.2 4
2 4.14 54 7394.8 113.52 88 221 10.6 3
3 3.48 210 516.0 96.10 55 151 12.0 4
4 2.54 64 6121.8 60.63 92 183 10.3 4
5 3.53 143 671.0 113.15 72 136 10.9 3
6 3.98 50 944.0 93.00 63 NA 11.0 3
從上述數(shù)據(jù),我們正在考慮時(shí)間和狀態(tài)進(jìn)行分析。
現(xiàn)在繼續(xù)將Surv()函數(shù)應(yīng)用于上述數(shù)據(jù)集,并創(chuàng)建一個(gè)將顯示趨勢(shì)圖。參考以下示例代碼 -
setwd("F:/worksp/R")
# Load the library.
library("survival")
# Create the survival object.
survfit(Surv(pbc$time,pbc$status == 2)~1)
# Give the chart file a name.
png(file = "survival.png")
# Plot the graph.
plot(survfit(Surv(pbc$time,pbc$status == 2)~1))
# Save the file.
dev.off()
當(dāng)我們執(zhí)行上面的代碼,它產(chǎn)生以下結(jié)果和圖表 -
Call: survfit(formula = Surv(pbc$time, pbc$status == 2) ~ 1)
n events median 0.95LCL 0.95UCL
418 161 3395 3090 3853
上圖中的趨勢(shì)有助于我們預(yù)測(cè)在一定天數(shù)結(jié)束時(shí)的生存概率。
