有志始知蓬莱近
无为总觉咫尺远

做多元回归论文的目的(多因素回归分析模型中的变量筛选方法)

多因素回归分析模型中的变量筛选方法

1. 背景知识

多元线性回归、Logistic回归和Cox回归是医学统计分析中使用最多的三种回归方法,关于这三种回归方法的原理、统计软件操作、结果解读我们在《聪明统计学》中已经做了较为详细的介绍[1],但其中关于多因素回归变量筛选的方法并未做重点介绍,而这个问题又是许多临床医生在论文写作中感到困惑的地方。当临床医生感到困惑时往往会求助统计学家,而统计学家很多时候给到的答案是:我们可以借助统计软件的变量筛选方法自动实现变量筛选,因为SPSS软件中在Logistic回归和Cox回归中给出了7种变量筛选的方法[2]:

①条件参数估计似然比检验(向前:条件);

②最大偏似然估计的似然比检验(向前:LR);

③Wald卡方检验(向前:Wald);

④条件参数估计似然比检验(向后:条件);

⑤最大偏似然估计的似然比检验(向后:LR);

⑥Wald卡方检验(向后:Wald);

⑦Enter法(变量全部进入)。

现实情况是,我们在读临床文献的时候,很多作者采用下面一种变量筛选的方法:首先逐个对变量进行单因素回归分析,把单因素回归分析P值小于0.1的纳入最终的回归方程(此处变量筛选的标准也可把P值设为0.05或0.2,一般不会设置小于0.05,也不会设置大于0.2)。

这两种方法到底该如何选择呢?坦率的讲,这个问题没有标准答案。但笔者认为变量筛选应该考虑以下几条基本原则:第一种情况,当有效样本量很大,统计学检验效能足够的时候,可以使用上述6种变量自动筛选的方法中的任何一种。这里有一个经验性的判断统计学效能是否足够的标准:即一个单变量因素至少有20个有效样本量,举例来说,比如我们做Cox回归分析,如果我们收集了10个与预后相关的变量,那么至少应该有200个患者出现了我们定义的终点事件,比如***,此处需要注意的是至少200个***患者,而非200个患者,未出现终点事件的样本我们一般不把其视为有效样本。第二种情况,当不满足上述条件,或者其他原因导致的统计学效能不够的情况,应该采用大多数临床研究报告中采用的变量筛选方法,即首先逐个对变量进行单因素回归分析,把单因素回归分析P值小于0.1的纳入最终的回归方程。这种方法虽然广泛使用,但也饱受统计学家的质疑。第三种情况,即便是第二种方法,也未必可以“高枕无忧”了,有时我们会发现某些确定与某种疾病临床预后相关的变量,在单因素分析的时候并未达到我们所设定的变量筛选标准,而被排除在多因素回归模型之外,比如在一个前列腺癌预后因素分析的研究中,作者并未发现Gleason评分与预后显著相关,而临床上比较肯定的是Gleason评分与前列腺癌患者的预后显著相关,此时我们应该怎样做出取舍呢?笔者认为,对于那些已知的确定与某疾病预后显著相关的变量,即便未达到我们设定的统计学筛选标准,我们也应该纳入回归模型,这么做的考量即是从临床专业角度筛选变量。综上,笔者推荐第三种变量筛选的方法,统筹考虑统计学上的单因素分析结果与已知临床专业知识决定纳入回归方程的变量。

下面我们就以案例的形式为大家演示多因素回归中变量筛选的操作过程,为了便于读者阅读,我们首先以上述第二种方法为变量筛选的原则。[案例1]的数据下载自TheCancerGenomeAtlas(TCGA)数据库,经整理后获得。为了便于读者阅读和练习模仿,笔者对数据进行了简化处理。

 

2. 案例与软件操作

[案例1] 笔者在TheCancerGenomeAtlas(TCGA)数据中下载了1215例乳腺癌的临床资料及预后信息。下载网址:https://genome-cancer.ucsc.edu/。数据经整理后如下表1所示,变量定义及赋值说明如表2所示。这是一个生存资料,我们的研究目的就是要观察这1215例乳腺癌患者的***预后因素是哪些?此处需要说明的是,影响乳腺癌患者预后的因素可能很多,囿于客观条件我们无法对所有可能变量进行收集,到底该采集哪些变量,这是试验设计阶段该考虑的问题,一般来说变量收集的范围大致包括以下几个方面:第一,人口学特征,比如年龄、性别、种族等;第二,疾病本身的特点,比如疾病的严重程度,病理组织学类型、基因表达信息等;第三,与治疗相关的变量,比如既往接受过的治疗方式,是否手术,是否*物治疗,目前接受治疗的状况、给*剂量等。本案例中,我们为了简化问题使其更具有代表性,我们仅收集了9个可能影响预后的变量,大体上涵盖了上述三种情况。

表1.1215例乳腺癌患者的生存资料

表2.变量定义、赋值及说明

下面我们就以本案例中的数据演示Cox回归中变量筛选的实践操作过程。首先把表1所示的使用Excel整理好的数据导入IBMSPSS22.0(IBMSPSS,NY,USA)软件中。接下来对收集的9个变量逐个做单因素Cox回归分析,我们设定变量筛选标准为α=0.1,即单因素Cox回归分析P本例中总计有9个变量,有连续变量,有二分类变量,有等级资料和无序分类资料,前两种变量类型的处理方式类似,等级资料和无序分类资料需要设置哑变量。下面我们分别选择一种类型的变量进行演示。

图1.单因素Cox回归分析,依次选择“Analyze”-- “Survival”--“CoxRegression”。

图2.单因素Cox回归分析,依次如图所示选择:变量“Months”选入“Time”框中变量“Status”选入“Status”框中“DefineEvent”变量“Age”选入“Covariate”框中“Options”勾选95%可信区间。此处变量“Age”为连续变量。

图3.单因素Cox回归分析结果,P=0.0000.1,符合我们设定的筛选标准,纳入多因素回归模型。此处的Exp(B)即风险比(HR),HR=1.026表示年龄每增长1个单位,***风险增加2.6%,或者说年龄50岁患者的***风险是49岁的1.026倍。

图4.单因素Cox回归分析,依次选择“Analyze” “Survival” “CoxRegression”。依次如图所示选择:变量“Months”选入“Time”框中→变量“Status”选入“Status”框中→“DefineEvent”→变量“ER”选入“Covariate”框中→“Options”勾选95%可信区间。此处“ER”为二分类变量。

图5.单因素Cox回归分析结果,P=0.1540.1,根据我们设定的筛选标准,此变量不能纳入多因素回归模型。此处的Exp(B)即风险比(HR),HR=0.778表示ER阳性患者的***风险是ER阴性的0.778倍,但未达到统计学假设检验的阳性。

图6.单因素Cox回归分析结果,P=0.0640.1,根据我们设定的筛选标准,此变量纳入多因素回归模型。此处的Exp(B)即风险比(HR),HR=0.740表示PgR阳性患者的***风险是PgR阴性的0.740倍。

图7.单因素Cox回归分析结果,P=0.0720.1,根据我们设定的筛选标准,此变量纳入多因素回归模型。此处的Exp(B)即风险比(HR),HR=1.594表示切缘阳性患者的***风险是切缘阴性的1.594倍。

图8.单因素Cox回归分析,依次选择“Analyze”“Survival”“CoxRegression”。依次如图所示选择:变量“Months”选入“Time”框中→变量“Status”选入“Status”框中→“DefineEvent”→变量“Pathologic_stage”选入“Covariate”框中“Categorical”设置哑变量,把“Pathologic_stage”选入“CategoricalCovariate”框中,“Options”勾选95%可信区间。此处变量“Pathologic_stage”为等级变量。无序多分类变量的处理原则与此相同。

图9.单因素Cox回归分析结果,P=0.0000.1,根据我们设定的筛选标准,此变量纳入多因素回归模型。此处分别给出Pathologic_stage(1),Pathologic_stage(2),Pathologic_stage(3)的Exp(B)即风险比(HR),HR分别为1.419、1.923、5.881,前一步骤中设置“First”为参照,即设置病理分期的“I期”为参照,则Pathologic_stage(1),Pathologic_stage(2),Pathologic_stage(3)分别表示II期vs.I期、III期vs.I期、IV期vs.I期,哑变量设置的目的即是指定一个参照。

图10.单因素Cox回归分析结果,不纳入多因素Cox回归,结果解读略。

图11.单因素Cox回归分析结果,纳入多因素Cox回归,结果解读略。

图12.单因素Cox回归分析结果,纳入多因素Cox回归,结果解读略。

图13.单因素Cox回归分析结果,纳入多因素Cox回归,此处是多分类变量,其中任意一个比较的P值小于0.1即应该纳入回归方程。结果解读略。至此9个变量的单因素分析已经完毕,我们把需要纳入最后的回归方程的变量挑出来。

图14.多因素Cox回归分析结果。把单变量Cox回归分析筛选的变量选入“Covariates”框中选择默认的“Enter”发,即所有变量均进入回归方程。无序多分类变量及等级资料设置哑变量,勾选HR的95%可信区间。

图15.最终的多因素Cox回归分析结果。此结果表中P0.05的即是***的影响预后的因素,由此可以看出本例中变量Age、PgR、Pathologic_stage是影响乳腺癌患者的***预后因素。以上单因素与多因素分析的结果加以整理后在论文中报告中即可,可参见下表范式。

表3.单因素与多因素分析结果报告范式

3. 总结与讨论

综上,我们以生存资料为例演示了Cox回归中变量筛选的方法,多因素Logistic回归与多元线性回归的的变量筛选方法与上述Cox回归方法相同,我们不再演示其操作过程。在上述操作过程中,我们并未从临床专业角度考虑变量的取舍,众所周知ER与乳腺癌患者的预后相关,但本例中单因素Cox回归分析中变量ER的P值为0.154,并未达到我们设定的筛选标准,并未进入最终的回归模型,这种做法是否妥当?正如前文所述,我们也可以兼顾临床专业考虑与统计学考量决定最终纳入回归模型的变量,即便不符合我们设定的变量筛选标准,也将其纳入最终的回归模型进项校正。当然作者也可以尝试按照不同的变量筛选原则构建多个回归模型,通过回归模型诊断、预测效能评价等统计学方法比较不同回归模型的优劣,比如计算不同回归模型的C-Index或者C-Statistic等,有关C-Index的计算方法在本书Nomogram绘制的相关章节有详细介绍,感兴趣的读者可以尝试。对于大多数的临床医生来说,可能并不需要那么高深的统计学方法,如果可以掌握本文中所描述的变量筛选方法即可满足我们大部分的临床需求。

 

4. 参考文献

[1].周支瑞,胡志德.聪明统计学.长沙:中南大学出版社,2016.

[2].张文彤.SPSS统计分析高级教程.北京:高等教育出版社,2004.

[3]. 周支瑞,胡志德.疯狂统计学.长沙:中南大学出版社,2016.

如何用eviews做多元回归分析?

用eviews做回归分析的过程如下:  首先下载eviews安装包,不用解压,首先点击一个reg文件,即成功注册;  然后点击一个exe执行文件,即可以打开软件;  然后,开始进行数据分析,首先建立一个时间序列文件,输入开始与截止时间;  第二步,输入命令建立序列,dataycx,中间需要有间隔,按enter返回;  第三步,导入数据;  第四步,输入命令lsyx,得出结果;  对数据进行分析,观察因变量与自变量的关系。  回归分析(regressionanalysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

用Eviews做多元对数回归分析,如何输入命令?

有两种方法,第一种:在命令窗口中输入genrlny=log(y)然后回车,生成y的对数序列,lny只是新的序列名称,按照格式生成其他对数序列再回归;第二种,直接在菜单栏中选择QUICK然后选择EstimateEquation,输入log(y)clog(x1)log(x2)log(x3),注意中间有空格,对数函数要加括号,不区分大小写,c为常数。

主成分分析法是分析影响事物的主要因素,而多元回归逐步分析是不是也可以起到类似的作用,请专业人士回答

也许是的。

求问用SPSS做多元回归的几个问题

嗯,刚看到你的求助。你的问题较多,给我留言就行,我看了抽空给你来回答。1、散点图只能做两个变量之间的,一个横轴,一个纵轴;通过散点图判断它们之间存在线性还是非线性关系;2、是在存在多重共线性的情况下更适合采用逐步回归;3、采用分层回归分析的方法将控制变量、自变量按层分别选入模型中。

我想请教各位如何解释这个多元回归分析的结果。求指导!不胜感激!

家我q详谈

回归分析spss步骤回归分析spss结果解读

如果想深入学习毕业论文写作的话建议了解一些论文写作的知识。

硕士论文的摘要如何撰写?

硕士论文的文献综述如何撰写?

硕士论文的研究结论如何撰写?

回归分析spss步骤,本文会以研究客流量对销售额影响的问题为例具体演示spss操作步骤,同时,也会具体进行回归分析spss结果解读,并进一步讲解回归分析的其他类型,以帮助加深对回归分析的认识。

一、回归分析spss步骤

本文使用的是一组客流量和销售额的数据,用于构建客流量与销售额的线性回归分析,以研究客流量的变化对销售额的影响。

 

本例数据仅包含一个自变量与一个因变量,因此可构建简单的一元线性回归方程,依次单击spss的分析-回归-线性选项,进行线性回归分析。

 

第一步选择变量,分别将销售额、客流量添加到因变量、自变量选项中,以研究自变量客流量对因变量销售额的影响。

 

 

第二步,指定线性回归进入的方式,包括输入(自变量全部放进回归模型)、步进(按自变量贡献度、剔除与否等决定自变量是否放入回归模型)、除去(建立自变量模型后,根据条件剔除自变量)、后退(与除去相似,但后退采用逐次剔除自变量的方法)与前进(逐次添加自变量)五种方法。

由于本例分析的是简单的一元线性回归方程,可以按照默认选择“输入”。

 

第三步设置统计量,分别指定以下统计量:

1.回归系数,进行线性回归方程系数的计算,勾选“估算值”,可获得参数估计量。

2.模型拟合,了解模型的拟合度以及预测的准确度,可同时勾选“描述”统计数值,查看平均值、方差等。

3.残差,勾选“德宾-沃森(D-W)”检验,以了解残差是否存在自相关,检验模型是否具有统计学意义。

 

第四步,设置参考图表,比如标准化残差图中的“直方图”、“正态概览图”,用于辅助分析残差的自相关性、正态性,检验模型是否具有统计学意义。

 

第五步,如果在回归方程中需要设置常数项,需在“选项”设置中勾选“在方程中包括常量”。

 

二、回归分析spss结果解读

完成以上spss的设置后,即可进行运算获取结果,我们需要从模型拟合度、残差是否具有自相关来检验回归方程是否具有统计学意义,以及判断其预测的准确度。

a.模型拟合效果

模型摘要,求得的回归方程R方为0.839,R方数值越接近于1,说明方程的拟合优度越好,一般需要大于0.6。本例回归方程R方为0.839,说明本例分析所得的回归方程拟合效果良好。

 

ANOVA分析,回归模型的显著性值为0.00,小于0.05的置信空间,即说明有95%的概率拒绝原假设(原假设为客流量与销售额之间无回归关系),也就是说,客流量与销售额之间存在着显著的回归关系。

 

b.残差相关性分析

通过回归方程R方、ANOVA分析,可得知回归方程具有统计学意义,但模型是否具有准确的预测性,还需要通过残差相关性分析进一步确认。如果残差存在自相关的话,模型的预测准确度就不高。

查看模型摘要中的德宾-沃森值为2.060,查阅德宾-沃森表得到,样本量n=198(采用200样本量D-W值),控制变量数量k=1,其下临界值LD=1.664、上临界值UD=1.684。

而本例的德宾-沃森值为2.060,根据判定规则,本例回归方程符合“如果UD

 

残差直方图,可查看到残差的分布趋近于正态曲线的分布。

 

再结合正态P-P图分析,数值的分布近似与直线,说明残差的正态性良好。

在满足残差无自相关性、服从正态分布的前提下,说明该回归方程具有良好的预测性。

 

 

c.构建模型表达式

在判定回归模型统计学意义、残差无自相关性、残差满足正态分布的前提下,可求得回归方程的回归系数,从而构建回归方程。

系数分析表,客流量回归系数的显著性数值为0.00三、回归分析有哪些类型

在上文的示例中,我们演示了简单的一元线性回归分析,那么,除此以外,回归分析还包含哪些类型呢?

回归分析包含了线性回归与非线性回归分析,其中:

1.线性回归分析,可分为一元线性回归分析(一个自变量X与因变量Y的关系)与多元线性回归分析(多个自变量与因变量Y的关系)

2.非线性回归分析,也称为曲线回归,根据因变量是定量变量或定性变量可分为Logistic回归、有序回归、Probit回归等。非线性回归分析由于模型未知,其分析情况会更为复杂,常需要借助图表归纳,或简化为多元线性回归来分析。

四、小结

以上就是回归分析spss步骤,回归分析spss结果解读的相关内容。本文重点演示了spss中的一元线性回归分析的步骤,其中会涉及到回归方程的共线性、残差相关性、残差正态性、方程拟合优度等指标的使用。

 

(一人转发,幸福全班)

 愿你前程似锦,余生再无波澜

推荐阅读:

硕士毕业论文查重的方法及标准

被导师夸爆的论文选题!!

掌握知网查重原理,有效降低重复率10%以下(已补充我完整的知网查重报告)

毕业论文开题报告万能模板范例

论文查重,重复率太高怎么办?

为什么你的论文降重效果这么差,重复率怎么也改不下去?

怎么使用谷歌镜像下载论文?谷歌学术怎么下载?

不会选题?给你一个论文选题的思路!

知网论文检测一次多少钱?

论文重复率降不下来,快崩溃了,怎样才能有效的降重?

如何将***知网用到极致?

毕业论文格式模板标准word通用版

干货分享|免费的外文文献哪里找?

导师竟然给我开题报告模板了!!感动哭!

本科毕业论文之开题报告

毕业论文写的多差才会不通过!!

论文辅导| 论文指导一篇令人满意的论文,到底怎么写?

实证类论文怎么写?

常用数据调研网站有哪些?从问卷调研到数据分析,只要这些网站就能搞定!

论文降重|知网论文降重80%以上改到10%以内(知网篇)

论文降重|教会你如何61.81%降到4.74%(维普降重)

会计财务金融专业毕业论文的数据查找?

论文引言怎么写(最详细的论文引言写作方法)

论文写作实证分析--spss数据分析方法

实证论文怎么建立模型?

实证类论文怎么写?

论文如何做数据分析?看大牛如何用最接地气的语言为你指路?

SCI论文写作技巧!SCI最详细写作方法及攻略秘籍

硕统计学方向硕士论文准备(经验分享与建议)

硕士论文的研究目的如何撰写?

硕士论文的研究意义如何撰写?

硕士论文选题很难?千万不要忽视这4大常见问题!!!

硕士论文的正文如何撰写?研究生学位论文正文外审及规范二三事?硕士论文正文包括哪些部分?

硕士论文的“本章小结”如何撰写?

硕士论文的章(节)导语如何撰写?

硕士论文的关键词如何提取?

硕士论文文献综述----相关理论参考样本

硕士论文文献综述----相关实践参考样本

硕士论文文献综述----本章小结参考样本

硕士论文的摘要如何撰写?

硕士论文的文献综述如何撰写?

硕士论文的研究结论如何撰写?

硕士论文的研究背景如何撰写?

导师亲口说的开题报告写作技巧!附写作模板

早知道这个!!文献综述早写完了

学术论文写作以及discussions/results与conclusion的区别

统计学方向硕士论文准备(经验分享与建议)

回归系数不显著怎么办?

期刊投稿一般多久有回复?有几种常见审核状态?

调查报告怎么写?

如何在线制作调查问卷?

写论文如何选案例公司?

研究生案例型论文怎么写?

【研究方法】如何做经济学的实证研究——设计与写作

Stata软件基本操作和数据分析入门

论文数据去哪里找?

拯救ddl‼️6个免费外国文献下载网站

免费查找和下载文献的6个神仙网站

写论文必备网站,建议收藏

经管类实证研究分析(stata)论文详细全过程的经验总结——基础篇

对于模型、实证分析一窍不通,该怎么写一篇带实证分析的论文?

怎么看回归分析结果?

调查报告怎么写?

Word中表格如何设置为三线表?超详细教程!

如何在线制作调查问卷?

写论文如何选案例公司?

常用数据调研网站有哪些?从问卷调研到数据分析,只要这些网站就能搞定!

毕业论文格式模板标准word通用版

建议不会开题的研究生们都来学习这篇期刊!!

写论文必备!12个超实用的网站

论文网站(写作必备免费网站)二十个

论文工具大全+软件简介(免费下载)

开题报告万能模板

论文初稿,重复率78%?教你4个方法快速降重!

如何写人工智能方面的sci期刊论文?

论文写不下去怎么办?

写论文写到要吐了怎么办?

mba论文常用模型有哪些?

如何彻底摆脱焦虑?我只用了这5个方法!!

写论文的策略(含拖延症处方)

论文降重一次性从61%降到8%!!!

你第一篇SCI写了几个月?

论文辅导|如何搞定一篇SSCI论文?看完你就懂了!

毕业论文辅导案例

怎么才能提升自己工作能力?

怎么培养数据分析的能力?

有哪些值得推荐的数据可视化工具?

有哪些写论文的神器?

看论文文献用哪种阅读器比较好?

什么样的人适合搞科研?

有哪些科研人员看文献必用的软件?

如何研读一篇论文?

研究生在选择导师时,应该注意哪些方面?

校级盲审和院级盲审有什么区别?

硕论盲审通过,外审原来主要看这些!!

写论文的时候大家是否都会被老师说没有逻辑?

老师说答辩时不会故意卡人!!!!!

论文答辩不过的都是什么情况的?

如何优雅的通过毕业论文答辩?

来源:marketing 作者:泽洋

版权归原作者所有,论文那些事整理。

收录于合集 #毕业论文查重率

 2个

上一篇论文查重,重复率太高怎么办?

多元回归是什么意思?

multipregression(多元回归分析)概念:分析若干个预测变项和一个效标变项间的关系

用spss做多元回归,包括了虚拟变量和非虚拟变量

1、通过快捷方式打开SPSS工具,进入到数据编辑器。2、在变量视图下,输入变量名称,然后点击变量类型,默认是数字类型,可以切换到字符串或其他类型。3、将变量属性列往后移动,可以查看到对齐方式,有左、右和居中三种方式。4、点击值单元格,打开值标签窗口,设置值和标签。5、接着单击缺失对应的单元格,打开缺失值窗口,择离散缺失值,输入对应的值(不能出现重复的数据)。6、还可以对变量的列属性进行调整,调方向向上的箭头增大,反之减小。7、对应的测量列,可以择标度、有序和名义。注意事项:SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来。

多元逐步回归分析的目的是什么

多元逐步回归分析的目的是为了看每个解释变量对被解释变量的影响程度,当方程出现了异方差性,影响了回归方程的准确性,则要把这个变量剔除。

未经允许不得转载:财高金融网 » 做多元回归论文的目的(多因素回归分析模型中的变量筛选方法)

相关推荐