LASSO回归全称LeastAbsoluteShrinkageandSelectionOperator,是一种线性回归的缩减(shrinkage)方法。LASSO主要用来进行变量筛选,特别是当自变量之间有共线性时很有用。常用在影像学数据分析中,因为影像测量数据,变量之间相关性比较强,从众多测量变量中筛选变量用于诊断与预测。
影像学数据用于诊断与预测流程可以是:
第一步:用LASSO筛选出可用于预测的自变量。
第二步:将这些变量与其回归系数组成一个计算评分(score)的公式。(在这个公式中intercept可以不需要)。
第三步:然后比较两个不同的预测模型:模型1:影像学score;模型2.影像学score+临床特征。这一步可以用数据分析-预测模型与ROC或诊断试验与ROC分析模块来做。
注:第一步筛出来可用于预测的影像学特征变量后,也可以直接将这些变量带入第三步分析,不需要计算score。
统计学原理LASSO在如下两种情况时用得到:
1.当自变量X本身存在线性相关关系(多重共线性)。如X1与X2非常相关(即使并不是完全线性相关),这时X1的回归系数b1与X2的回归系数b2就可以有无数种组合而得到完全相同的b1*X1+b2*X2,也就是说对回归系数的求解不稳定,就需要附加条件来求解回归方程。
2.当数据特征(X变量数)比数据量(观察记录数)还要多的时候,也需要附加条件来求解回归方程。
LASSO将回归系数(b)收缩在一定的区域内。LASSO的主要思想是构造一个一阶惩罚函数获得一个精炼的模型,通过最终确定一些变量的系数为0进行特征筛选。LASSO的惩罚项为:sum(abs(b))=t。
数学原理易侕软件LASSO回归模块调用Rglmnet程序包进行LASSO回归分析,通过10folds交叉验证(cross-validation)筛选lambda。lambda越大,模型越精简。交叉验证方法是将数据分成10等分,首先对全数据进行拟合,生成lambda序列,然后每次排除1分数据,用余下的9分数据进行验证,计算10次验证得出来的错误(deviance)的平均值与标准差。最终输出两种模型,一是基于lambda.min即错误的均值为最小时对应的lambda;二是基于lambda.1se即错误均值在最小值的1个标准差范围之内对应的最大lambda。
软件操作练习下载练习数据: