上一篇文章介绍了相关分析,相关系数描述了变量之间的相关程度,通过显著性检验后,我们也找到了有统计意义的相关性比较大的变量。今天就通过线性回归将这些关联性强的变量建立数学模型,研究一下当一个变量(自变量)变化时,另一个变量(因变量)是如何变化的,以及变化多少的问题。
首先了解一下什么是因变量和自变量?
在数据分析中往往涉及到多个变量,在这些变量中,有一个变量是特别关注的,则称为因变量。其它变量则看成影响这一变量的因素,称为自变量。

拿上篇文章的例子来看,日收入与付费人数有比较强的相关性,相关系数是0.954,具有显著性。下面通过SPSS画出收入和付费人数的散点图:

从散点图来看,收入是随着付费人数的变化而变化的,有一定的线性关系。接下来进行回归分析,选择分析->回归->线性。

运行结果中包含5个表两个图,我们摘取其中三个重要的表看一下


由表二可知,回归系数可以做显著性检验,同样,回归方程也可以做显著性检验,从表三看出F检验P值为0.000,远小于0.05.说明回归方程也是显著性的。
其实,在散点图上也可以画出回归直线和回归方程,双击散点图->添加总计拟合线即可如下图。

通过前面的分析可知回归方程和回归系数都是显著的,那么接下来的预测就是可靠的。假如有500个付费用户,根据回归方程y(收入)=-144.2+3.55×x(付费人数)得到收入大概是1631元。有时候要分析的变量中,可能会遇到离群值,离群值是落在置信区间外的点,比如有个大鲸鱼用户一次充了10w,可能造成当天的收入异常的高。在做回归分析中,为了提高回归方程的拟合程度,可以将这些点忽略掉。
本文讲的是最简单的一元线性回归做初步了解,除了一元线性回归还包括多元线性回归和多项式回归等,后面的文章会再探讨。


