学会用Excel做预测.No5
大家好,我是零一,只做实操分享。我是一名数据分析师,8年的电商从业经验,擅长电商领域的数据分析和挖掘;这篇文章是我徒弟暗之写的,比较简单;我们一起来学习吧。
需要预测的场景太多这里不一一赘述了,在师傅的指导下,我对excel的认知水平又提升了一大截,学会了用excel做多元回归分析。这个预测方法不仅适用绝大部分行业,并且也适用没有业务基础的小白操作。附上师父的一句教诲:相信相信的力量。
下面进入主题:
1. 打开一张多字段数据的excel表格
导盲犬:excel中每一列就是一个字段,其第一个单元格内容就是字段名。
→剪切20%的数据做为测试集,剩余的80%数据做为训练集。→将需要预测的列剪切并复制在其它变量的前面,也就是第2列,这里我们对“无线端下单金额“进行预测,确定影响它的相关因子。
导盲犬:将需要预测的数据放在首列是为了保持预测时的连续性,另外相关因子的数量最多为16个。
→数据→数据分析
→Y值所在区域:预测值所在列的第一行开始至最后一行;X值所在区域:其余变量所在列的第一行开始至最后一行→勾选标志→勾选残差→确定
导盲犬:残差=实际y值-预测y值,利用条件格式筛选掉残差>两个标准误差的异常值。
→选中所有残差→开始→条件格式
→突出显示单元格规则→大于
→输入2倍标准误差值→确定
→找出异常值所在行
→返回数据源将异常值所在行删除即第10行和第39行(注:原数据因为有标题,所以残差异常值所在第9行相当于源数据第10行,又因为第一次删除后导致后面的行数均会上移一行,所以残差异常值所在第39行相当于源数据39行)
→数据→数据分析
→回归→确定
→Y值所在区域:预测值所在列的第一行开始至最后一行;X值所在区域:其余变量所在列的第一行开始至最后一行→勾选标志→勾选残差→确定
→筛选出<0.05的P值
导盲犬:统计学家普遍的共识,p<0.05的时候,自变量对预测y才有用.
→开始→条件格式
→突出显示单元格规则→小于→0.05→确定
为了预测更加准确,这里还需考虑多重共线性,利用半相关矩阵检查。
导盲犬:如果说两个或多个自变量是高度相关的,很可能产生多重共线性。
→返回数据源→数据→数据分析→相关系数→确定
→输入区域(除预测值外的所有数据)→标志位于第一行→确定
→开始→条件格式→突出显示单元格规则
→大于→0.998→确定
→删除字段下单父订单数、无线端支付父订单数。
导盲犬:所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
→源数据→数据→数据分析→回归→确定
→观察R方与P值
导盲犬:所有自变量共同作用具有显著性的结论,通俗的讲,只有R方大于0.6的时候,预测y才有意义。
→选中所有变量的P值→开始→条件格式→突出显示单元格规则→小于
→0.05→确定→删除其它P值>0.5的变量
→源数据→数据→数据分析→回归→确定
→Y值所在区域:预测值所在列的第一行开始至最后一行;X值所在区域:其余变量所在列的第一行开始至最后一行→勾选标志→确定
→观察R值和P值,均符合要求。
→得出公示:预测值无线端下单金额=-84341.91323+无线端下单买家数*365.259139-392.2248391*无线端支付买家数+1.200575347*无线端支付金额
导盲犬:Intercept为截距的意思。
→返回测试集验证
通过验证发现预测的点跟测试集的点高度吻合,该模型可以使用。
预测是商业分析的核心,企业之所以能产生利润主要就是因为企业获得了信息差,而预测就是帮助企业创造信息差。因此,预测能力是最能体现数据分析师价值的点。
原创文章,转载请注明出处:光环大数据
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。 更多问题咨询,欢迎点击------>>>>在线客服!