目的: 探索影响邯郸市居民食管癌发病的主要因素,并建立其食管癌风险预测模型。 方法: 首先收集了邯郸市食管癌患者100个和非食管癌患者114个。然后,运用Spearman相关系数对8个自变量之间的相关性进行分析后找到影响是否患食管癌的主要因素, 基于Logistic回归模型建立了最优食管癌的风险预测模型。 结果:影响邯郸市居民食管癌发病的主要因素为年龄、居住地、饮酒情况、从事工作。并通过逐步回归方法得到最优的Logistic回归预测模型,同时应用5折交叉验证方法验证了模型基本不存在过拟合现象,预测准确度达到92.99%。 结论: 食管癌风险预测模型的建立为邯郸市食管癌高危人群预警、早期诊断、个体化防治可提供更有力的理论依据。
基于Logistic回归的食管癌风险预测模型研究 张艳萍 高皓楠 曹云珍
一 背景及目的 通过预测模型可以确定患者未来发病风险。疾病风险预测模型不仅在发病率较高的高血压等[1]应用广泛,在肿瘤发病率相对较低的食管癌等[2]也有应用。食管癌的病理类型在不同国家地区有所差异。在西方国家,食管癌的病理类型以食管腺癌为主,且与Barrett食管癌的发病密切相关。而在亚洲国家,食管癌以食管鳞状细胞癌(ESCC)为主,占到了全部食管癌的90%以上[3],我国河北涉县、磁县等地是食管癌高发地区[4]。近年来国内外研究者对食管癌进行了大量的流行病学研究和病因学研究,从不良生活方式和饮食习惯等多方面进行了探索,取得了有意义的进展,为食管癌的防治提供了一定的科学依据。为了更好的为邯郸市食管癌高危人群预警、早期诊断、个体化防治提供更有力的理论依据,本文探索影响邯郸市居民食管癌发病的主要因素,并建立其食管癌风险预测模型[5-9]。 二 资料和方法 2.1 研究对象 通过收集邯郸市某医院2017年食管癌住院患者信息和居民健康人群调查问卷信息,最后分别得到100个样本和114个样本。我们定义抽烟者、饮酒者的标准如下:平均每周至少两次并达一年的人定义为饮酒者,否则为非饮酒者;一生种吸烟总量大于100支或吸烟斗大于100次的人定义为吸烟者,否则为非吸烟者。因变量为是否患有食管癌,自变量为性别( )、年龄( )、居住地( )、吸烟情况( )、饮酒情况( )、个人健康情况( )、从事工作( )。 2.2 数据处理和统计分析 通过自变量与因变量的列联表分析以及Spearman相关系数矩阵得到年龄( )、居住地( )、吸烟情况( )、饮酒情况( )、从事工作类型( )与患有食道癌具有显著的相关性。而性别( )、个人健康情况( )与患有食管癌没有显著的相关性。 三 食管癌风险预测模型的构建 3.1 Logistic回归模型建立 从相关分析可以看出,性别( )、个人健康情况( )与因变量没有统计学相关性。因此Logistic回归模型中,纳入以下自变量:年龄( )、居住地( )、吸烟情况( )、饮酒情况( )、从事工作( )。从而建立 关于自变量 的Logistic回归方程为: 利用SPSS17.0进行数据处理和分析,各回归系数中吸烟情况( )的 >0.05,从而得到此变量对Logistic回归模型没有显著的统计学意义。进一步,利用逐步回归方法对模型进行优化,发现去除吸烟情况( )变量后,所有的回归系数 <0.05,说明各变量对Logistic回归优化模型具有显著的统计学意义。 为了验证优化模型的有效程度,对原模型和优化模型的卡方检验进行了比较,如表1所示:
表1 原模型和优化模型比较 模型 Resid. Df Resid. Dev Df Deviance Pr(>Chi) 原模型 208 15.380 优化模型 209 15.504 -1 -0.12438 0.1946 从表中得到,卡方值 ,得到吸烟情况( )这个变量不会显著影响模型的预测精度,从而验证了优化模型的有效程度。 最终得到是否患有食管癌的Logistic回归优化模型为: 3.2 模型验证及指标分析 为了避免引入过多变量导致模型的过度拟合,以至于预测的严重失真,通过5折交叉验证方法进行检验,得到平均误差为7.01%,说明模型基本不存在过拟合现象。模型预测准确度为92.99%,并通过最优模型Logistic回归中的受试者工作特征曲线(receiver operating characteristic curve, ROC曲线),计算了相应的曲线下面积(areas under the curve, AUC)为0.985(如图1所示),从而说明建立的Logistic回归优化模型是高度有效的。 图1 ROC曲线及AUC值 进一步,对回归系数的风险比值比(odds ratio, OR)进行了分析,随着年龄的变化,每增大一个单位,患有食管癌的概率就会增加1.139倍;随着居住地的变化,每变化一个单位,患有食道癌的概率就增加1.136倍;随着饮酒情况的变化,饮酒者是非饮酒者患有食道癌概率的0.894倍;工作人群患有食道癌的概率是退休人群的1.658倍。 综上所述,邯郸市居民食管癌的患病率主要跟其生活习惯以及居住环境的工作人群相关,但是食管癌相关危险因素的影响仍需进一步研究和探讨,从而建立准确性更高的食管癌风险预测模型,为食管癌高危人群预警、早期诊断、个体化防治提供更有力的理论依据。
基金项目:邯郸市科学技术研究与发展计划项目:1624230057-3. (作者单位:河北工程大学)
|