逻辑回归
简介
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。(摘自百度百科“Logistic回归”词条)
主要用途
- 寻找导致某种情况的主要因素,比如寻找导致肺癌的主要致癌因素;
- 预测,例如根据logistic回归模型预测在不同自变量的情况下,判断导致肺癌的概率有多大;
- 判别,类似预测,例如判断在不同自变量下,判断一个人有多大可能性属于肺癌。
优缺点
优点
计算代价不高,易于理解和实现。
缺点
容易欠拟合,分类精度可能不高。
相关概念
- 海维赛德阶跃函数
- Sigmoid函数
为了实现Logistic回归分类器,我们可以在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和代入Sigmoid函数中,进而得到一个范围在0~1之间的数值。任何大于0.5的数据被分为1类,小于0.5的数据被分为0类。
确定了分类器的函数形式后,现在的问题就变成了如何求解最佳回归系数。