当前位置:首页 > 运营模型 > 如何用线性回归模型做数据分析?

如何用线性回归模型做数据分析?

4年前 (2021-03-18)运营模型

写在前面:

很多同学目前所做的业务分析工作,徒手分析即可cover业务需求,较少用到一些高阶的统计模型和机器学习上面的东西。渐渐的便会产生一种感觉,即数据分析满足业务需求即可,不需要会机器学习。

但我认为:

1、目前的工作不需要,不代表之后的工作不需要,我们应该着眼于我们整个数据分析生涯

2、掌握一些模型可以高效做一些定量分析,较徒手分析效率更高,更准

3、我们觉得一些东西没用,很可能是因为我们还没有发现如何去用 ;

4、我们对自己的要求不应该止于满足业务需求,一些探索性专题非常依赖于机器学习 ;

基于以上,我尝试开始更新一些机器学习方面的文章,从较基础的线性回归、决策树等开始,希望大家可以跟着小洛一起学习,有疑问大家可以随时在交流群提~

一、什么是线性回归

线性回归是利用线性的方法,模拟因变量与一个或多个自变量之间的关系。对于模型而言,自变量是输入值,因变量是模型基于自变量的输出值,适用于x和y满足线性关系的数据类型的应用场景。

线性回归应用于数据分析的场景主要有两种:

  • 驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);

  • 预测:自变量与因变量呈线性关系的预测;

例如要衡量不同的用户特征对满意分数的影响程度,转换成线性模型的结果可能就是:分数=-2.1+0.56*年龄

线性回归模型分为一元线性回归与多元线性回归:区别在于自变量的个数

如何用线性回归模型做数据分析?

二、线性系数的计算-最小二乘法

我们知道了模型的公式,那么模型的系数是如何得来呢?我们用最小二乘法来确定模型的系数。最小二乘法,它通过最小化误差的平方和寻找数据的最佳函数匹配,利用最小二乘法可以求得一条直线,并且使得拟合数据与实际数据之间误差的平方和为最小。

将上述模型公式简化成一个四个点的线性回归模型来具体看:分数=-2.1+0.56*年龄

如何用线性回归模型做数据分析?

最小二乘法选取能使模型最小化的直线,生成直线后即可得出模型自变量的系数和截距。

三、决定系数R方(R-squared)与调整R方

R方(适用一元线性回归)

R方也叫决定系数,它的主要作用是衡量数据中的因变量有多准确可以被某一模型所计算解释。公式:

如何用线性回归模型做数据分析?

如何用线性回归模型做数据分析?

离差平方和:代表因变量的波动,即因变量实际值与其平均值之间的差值平方和

误差平方和:代表因变量实际值与模型拟合值之间的误差大小

如何用线性回归模型做数据分析?

故R方可以解释因变量波动中,被模型拟合的百分比,即R方可以衡量模型拟合数据的好坏程度;R方的取值范围<=1,R方越大,模型对数据的拟合程度越好;

使用不同模型拟合自变量与因变量之间关系的R方举例,

R方=1 模型完美的拟合数据(100%)

如何用线性回归模型做数据分析?

R方=0.91 模型在一定程度较好的拟合数据(91%)

如何用线性回归模型做数据分析?

R方<0 拟合直线的趋势与真实因变量相反

如何用线性回归模型做数据分析?

调整R方(适用多元线性回归)

一般的R方会存在一些问题,即把任意新的自变量加入到线性模型中,都可能会提升R方的值,模型会因加入无价值的变量导致R方提升,对最终结果产生误导。

故在建立多元线性回归模型时,我们把R方稍稍做一些调整,引进数据量、自变量个数这两个条件,辅助调整R方的取值,我们把它叫调整R方,调整R方值会因为自变量个数的增加而降低(惩罚),会因为新自变量带来的有价值信息而增加(奖励);可以帮助我们筛选出更多有价值的新自变量。

如何用线性回归模型做数据分析?

n:数据量大小(行数)->数据量越大,新自变量加入所影响越小;

p:自变量个数->自变量个数增加,调整R方变小,对这个量进行惩罚;

一句话,调整R方不会因为模型新增无价值变量而提升,而R方会因为模型新增无价值变量而提升!通过观测调整R方可以在后续建模中去重多重共线性的干扰,帮助我们选择最优自变量组合。

R方/调整R方值区间经验判断

  • <0.3->非常弱的模型拟合

  • 0.3-0.5->弱的模型拟合

  • 0.5-0.7->适度的模型拟合

  • >0.7->较好的模型拟合

四、线性回归在数据分析中的实战流程

我们以共享单车服务满意分数据为案例进行模型实战,想要去分析不同的特征对满意分的影响程度,模型过程如下:

如何用线性回归模型做数据分析?

1、读取数据

如何用线性回归模型做数据分析?

2、切分因变量和自变量、分类变量转换哑变量

如何用线性回归模型做数据分析?

3、使用VIF去除多重共线性

多重共线性:就是在线性回归模型中,存在一对以上强相关变量,多重共线性的存在,会误导强相关变量的系数值。

强相关变量:如果两个变量互为强相关变量,当一个变量变化时,与之相应的另一个变量增大/减少的可能性非常大。

当我们加入一个年龄强相关的自变量车龄时,通过最小二乘法所计算得到的各变量系数如下,多重共线性影响了自变量车龄、年龄的线性系数。

这时候,可以使用VIF消除多重共线性:VIF=1/(1-R方),R方是拿其他自变量去线性拟合此数值变量y得到的线性回归模型的决定系数。某个自变量造成强多重共线性判断标准通常是:VIF>10

如何用线性回归模型做数据分析?

我们发现,年龄的VIF远大于10,故去除年龄这一变量,去除后重新计算剩余变量VIF发现所有均<10,即可继续。

4、计算调整R方

如何用线性回归模型做数据分析?

5、数据标准化

我们希望不同自变量的线性系数,相互之间有可比性,不受它们取值范围影响

如何用线性回归模型做数据分析?

6、拟合模型,计算回归系数

共享单车分数案例,因变量是分数,自变量是年龄、组别、城区,线性回归的结果为:分数 = 5.5 + 2.7 * 年龄 +0.48 * 对照组 + 0.04 * 朝阳区 + 0.64 * 海淀区 + 0.19 * 西城区

如何用线性回归模型做数据分析?

7、生成分析洞见-驱动力因素

如何用线性回归模型做数据分析?

最终产出不同用户特征对用户调研分数的驱动性排名。驱动力分数反应各个变量代表因素,对目标变量分数的驱动力强弱,驱动力分数绝对值越大,目标变量对因素的影响力越大,反之越小,驱动力分数为负时,表明此因素对目标变量的影响为负向。

8、根据回归模型进行预测

至此,回归模型已经建好,预测就不写了,把要预测的数据x自变量导入模型即可预测y。

结语:

相信大家读完这篇文章,对线性回归模型已经有了一些了解,大家快快动起手来把模型应用到自己的实际工作中吧!

扫描二维码推送至手机访问。

版权声明:本文由汇运营发布,如需转载请注明出处。

本文链接:http://www.huiyunying.com/baike/457.html

分享给朋友:

“如何用线性回归模型做数据分析?” 的相关文章

书籍推荐:运营人必读的十本书籍

书籍是人类进步的阶梯,此话放到如今依然不过时,而知识改变命运也是铁板钉钉一样的真理,那么适合运营人读的书籍有哪些呢?这里为大家推荐十本不错的书籍。一、《从零开始做运营》作者:张亮var jd_union_pid="3002833661";var jd_union_euid="";这本书很适合没有运营...

营销推广:所谓“流量为王”,不过是一厢情愿的幻觉

营销推广:所谓“流量为王”,不过是一厢情愿的幻觉

如今大家对于产品和卖货,过于注重流量的重要性,以至于忽略了用户和产品本身;流量是依附于在货上,产品对了才是关键,一味的追逐流量,效果必然不好。营销的价值出了问题,给流量吃药是不管用的一、虚心听批评——邹忌讽齐王纳谏大帅哥邹忌问老婆:“我跟城北的老徐哪个帅?”老婆说:“废话,当然你帅,老徐跟你比就是个...

可实操测试的信息流推广定向8种组合玩法

可实操测试的信息流推广定向8种组合玩法

很多人刚开始投信息流不知道怎么设置定向这块,本篇就来给大家捋一捋。信息流中,定向非常多,各个平台虽然在细节上有所差异,但整个大框架是差不多的。这些定向,主要分为三种。第一种:基础定向主要是年龄、地域、性别、学历、人生阶段这些,一般主要在单元层级的前面设置,这点无需多说。第二种:兴趣定向又可以分为核心...

如何从知乎引流,1个月涨1万粉?

如何从知乎引流,1个月涨1万粉?

知乎是目前我国最大的知识问答平台,平台内既有专业人士,也有业余爱好者,知乎为知识的传播者和获取者搭建了平台,也为公众号的运营者带来了一个巨大的商机。我觉得运营知乎比起公众号来说还是要方便很多,因为它的提问和回答根本不需要过多的修饰:你提出你的问题,我发表自己的观点和看法。我认为这样的氛围就很不错,而...

请看,一场教科书式的新品首发

请看,一场教科书式的新品首发

消费市场端的变化开始了,母婴品牌们也要加快跟紧的脚步了。今年天猫618,博西家电创下历史最佳开门红,其中西门子家电首日即闯入“亿元俱乐部”,不仅突围了疫情影响,也为生意增长做出了新探索。创新成为其中关键。618期间,西门子家电在天猫首发一款高端的嵌入式蒸烤箱新品,从5月20日起,西门子家电、天猫与阿...

搜索算法全解析:如何让百度搜索选择我?

搜索算法全解析:如何让百度搜索选择我?

1、网站的基本素质(1)新站建立时适当交换外链,利于Spider爬取发现;也可以前往百度搜索资源平台通过快速收录工具,向百度搜索主动提交站点新增的高时效性资源,缩短爬虫发现网站链接的时间;(2)首页内容要保持一定的更新速度,持续优化,并且视觉感官上符合简单、明了、主题明确、无冗杂信息等优质特质;(3...