你应该知道的7种回归技巧
介绍
线性和逻辑回归通常是人们在预测建模中学习的第一种算法。由于他们的受欢迎程度,很多分析师甚至最终认为他们是唯一的回归形式。稍微涉及的人认为他们是所有形式的回归分析中最重要的。
事实是有无数形式的回归可以执行。每种形式都有自己的重要性和它们最适合应用的特定条件。在这篇文章中,我以简单的方式来介绍最常用的7种形式的回归,我也希望通过这篇文章,人们能够开拓一个回归广度的想法,而不是对他们遇到的每个问题都应用线性/逻辑回归,并让他们能够适应它。
目录
1、什么是回归分析?
2、我们为什么要使用回归分析?
3、回归的类型都有哪些?
1)线性回归
2)逻辑回归
3)多项式回归
4)逐步回归
5)岭回归
6)套索回归
7)弹性网回归
4、如何选择正确的回归模型?
什么是回归分析?
回归分析是一种预测建模技术,它是用来分析因变量(目标)和自变量(预测因子)之间的依赖关系和它们之间的因果关系,时间序列模型也可以进行预测。例如,驾驶员的鲁莽驾驶与道路交通事故之间的关系通过回归分析再合适不过了。
回归分析是数据建模和分析的重要工具。在这里,我们用曲线或直线去拟合数据点,使得数据点与曲线或直线之间的距离差最小化。我将在接下来的部分详细解释这一点。
为什么我们要使用回归分析?
如上所述,回归分析估计两个或多个变量之间的关系。让我们通过一个简单的例子来了解这一点:
假设您想根据当前的经济状况估算公司销售额的增长,您有公司最近的数据表明,销售额的增长是经济增长的两倍多。利用这种洞察力,我们可以根据当前和过去的信息预测公司未来的销售情况。
使用回归分析有多个好处。它们如下:
-
它表示因变量和自变量之间的重要关系。
-
它表明多个自变量对因变量的影响强度。
回归分析还使我们能够比较不同尺度变量测度的影响,如价格变化的影响和促销活动的数量。这些优势有助于市场研究人员/数据分析师/数据科学家消除和评估用于构建预测模型的最佳变量集。
我们有多少种回归技术?
有各种各样的回归技术可用于进行预测。这些技术主要由三个指标(自变量的数量,因变量的类型和回归线的形状)驱动。我们将在以下部分详细讨论它们。
对于创造性的,如果您觉得需要使用人们之前没有使用过的上述参数的组合的话,你可以尝试新的回归模型,但在开始之前,让我们先了解最常用的回归模型:
一、线性回归
它是大家最熟悉的建模技术之一。线性回归通常是人们在学习预测模型时最先选择的几个主题。在这种模型中,因变量是连续的,自变量可以是连续的或离散的,回归线的性质是线性的。
线性回归使用最佳拟合直线(也称为回归线)是建立在因变量(Y)与一个或多个自变量(X)之间的关系。
它由方程Y = a + b * X + e表示,其中a是截距,b是线的斜率,e是误差项。该方程可以用于基于给定的预测变量来预测目标变量的值。
简单线性回归与多元线性回归之间的差异在于,多元线性回归具有多于1个的自变量,而简单线性回归只有1个自变量。现在问题是我们如何得到最合适的拟合线?
如何获得最佳拟合线(a和b的值)?
这个任务可以通过最小二乘法轻松完成。这是用于拟合回归线的最常用的方法。它通过最小化每个数据点到线的垂直偏差的平方和来计算观测数据的最佳拟合线。因为偏差是第一次平方的,所以正值和负值之间就没有抵消。
我们可以使用R^2指标来评估模型性能。要了解有关这些指标的更多详细信息,你可以阅读:模型性能指标第1部分,第2部分。
重点:
1)自量与因变量之间必须存在线性关系;
2)多重回归存在多重共线性,自相关,异方差;
3)线性回归对异常值非常敏感,它可以极大地影响回归线,最终影响预测值;
4)多重共线性可以增加系数估计值的方差,并使估计对模型中的微小变化非常敏感,使得系数估计不稳定;
5)在多个独立变量的情况下,我们可以采用前向选择,后向消除和逐步回归方法来选择最重要的自变量。
二、逻辑回归
Logistic回归用于查找事件成功和失败的概率。当因变量为二进制(0/1,True / False,Yes/ No)时,我们应该使用逻辑回归。这里,Y的值范围从0到1,并且可以由以下等式表示。
odds = p /(1-p)=事件发生概率/事件不发生概率
ln(odds)= ln(p /(1-p))
logit(p)= ln(p /(1-p))= b0 + b1X1 + b2X2 + b3X3 ... + bkXk
以上,p是存在感兴趣特征的概率。你在这里应该问的问题是为什么我们在等式中使用log转换?
由于我们在这里使用二项分布(因变量),我们需要选择最适合这种分布的链接函数。而且,它是logit函数。在上面的等式中,选择参数以最大化观察样本值的可能性,而不是最小化平方误差的总和(像在普通回归中)。
重点:
1)广泛应用于分类问题;
2)逻辑回归不需要因变量和自变量之间有线性关系。它可以处理各种类型的关系,因为它将非线性对数变换应用于预测的优势比;
3)为了避免过度拟合和拟合,我们应该包括所有重要的变量。确保这种做法的一个好办法是使用逐步的方法来估计逻辑回归
4)它需要较大的样本量,因为极大似然估计在低样本量方面没有普通最小二乘法更有效;
5)自变量不应相互关联,即无共线性。然而,我们有选择在分析和模型中包括分类变量的交互效应;
6)如果因变量的值是序数,则称为有序逻辑回归;
7)如果因变量是多类,则称为多项Logistic回归。
三、多项式回归
如果自变量的幂大于1,则回归方程是多项式回归方程。下面的方程式表示多项式方程:
Y = A + B * X ^ 2
在这种回归技术中,最佳拟合线不是直线,这是一个适合数据点的曲线。
重点:
虽然可能会有一种趋向用较高级多项式拟合来获得较低的误差,但这可能会导致过度拟合。你需要经常绘图来查看拟合状况,并保证专注于拟合合理,既没有欠拟合,也没有过度拟合,下面有个例子可以帮助理解:
特别注意曲线最终走向,看看这些形状和趋势是否有意义。更高的多项式最终可能导致外推的结果。
四、逐步回归
当我们处理多个自变量时,使用这种回归形式。在这种技术中,自变量的选择是在自动过程的帮助下进行的,不需要人为干预。
通过观察统计值,如R^2,t统计量和AIC度量来辨别重要变量,可以实现这一特征。逐步回归基本上适合回归模型,通过根据指定的标准一次添加/删除共变量。一些最常用的逐步回归方法如下:
-
标准逐步回归有两件事情。它根据每个步骤的需要添加和删除预测变量。
-
前向选择从模型中最重要的预测变量开始,并为每个步骤添加变量。
-
反向消除从模型中的所有预测变量开始,并在每个步骤删除最不重要的变量。
这种建模技术的目的是以最小数量的预测变量来最大化预测能力,它是处理较高维数数据集的方法之一。
五、岭回归
Ridge回归是当数据具有多重共线性(自变量高度相关)时使用的方法。在多重共线性方面,尽管最小二乘估计(OLS)是无偏的,但它们的方差很大,这使观测值远远偏离真实值。通过向回归估计增加一定程度的偏差,岭回归降低了标准误差。
以上,我们看到了线性回归方程。它可以表示为:
y = a + b * x
该方程也有残差项。完整的方程式为:
y = a + b * x + e(误差项),[误差项是校正观测值和预测值之间的预测误差所需的值]
=> y = a + y = a + b1x1 + b2x2 + .... + e,用于多个独立变量。
在线性方程中,预测误差可以分解为两个子分量。首先是由于偏差,第二是由于方差。由于这两个或两个分量中的任一个都可能会发生预测错误。在这里,我们将讨论由于方差而导致的误差。
岭回归通过收缩参数λ解决了多重共线性问题,看下面的等式:
在这个方程式中,我们有两个部分。第一个是最小平方,另一个是β2(β平方)的和的λ倍,其中β是系数。这是用最小二乘方以缩小参数来使方差变小。
重点:
-
该回归的假设与最小二乘回归相同,但不包括正态性;
-
它缩小系数的值,但不会达到零,这表明没有选择特征;
-
这是一个正则化方法,并使用l2正则化。
六、套索回归
与Ridge回归类似,Lasso(最小绝对收缩率和选择算子)也罚约束了回归系数的绝对大小。此外,它能够减少线性回归模型的变异性和提高准确性。看下面的等式:
拉索回归与岭回归的不同之处在于它使用罚函数的绝对值而不是平方。这导致惩罚值(或等价地约束估计的绝对值的和)使得一些参数估计完全为零。更大的惩罚应用使得进一步估计收缩到绝对零,这导致给定的n个变量的变量选择。
重点:
-
该回归的假设与最小二乘回归相同,但不包括正态性;
-
它将系数缩小到零(正好为零),这肯定有助于特征选择;
-
这是一个正则化方法,并使用l1正则化;
-
如果一组预测因子是高度相关的,拉索只选择其中一个,并将其他的缩小到零。
七、弹性网回归
ElasticNet是Lasso和Ridge回归技术的混合体,它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,弹性网是有用的。拉索很可能随机选择其中一个,而弹性网很可能会选择两个。
拉索和里奇之间的一个切实的优势在于,它允许Elastic-Net继承Ridge在旋转下的稳定性。
重点:
-
在高度相关的变量的情况下,它鼓励群体效应;
-
所选变量的数量没有限制;
-
它可以进行双重收缩。
除了这七种最常用的回归技术之外,您也可以看到其他模型,如贝叶斯,生态和稳健回归。
如何选择正确的回归模型?
生活通常很简单,当你只知道一两种技巧时。我知道的一个培训机构告诉他们的学生 - 如果结果是连续的 - 应用线性回归。如果是二进制 - 使用逻辑回归!然而,我们可以使用的选项数量越多,选择合适的选项就越困难。回归模型的选择正如此。
在多种类型的回归模型中,重要的是选择基于自变量和因变量的类型,数据中的维数和数据的其他基本特征的最适合的技术。以下是你应该选择正确回归模型的关键因素:
-
数据探索是构建预测模型的不可或缺的部分。在选择正确的模型之前,您应该首先确定变量的关系和影响。
-
为了比较不同模型的拟合度的好坏,我们可以分析不同的指标,如参数的统计显着性,R^2,调整的R^2,AIC,BIC和误差项。另一个是Mallow的Cp标准。这通过将模型与所有可能的子模型进行比较(或仔细选择它们)来检查模型中的可能偏差。
-
交叉验证是评估用于预测的模型的最佳方式。在这里,您将数据集分为两组(训练和验证)。观察值和预测值之间的简单均方差差异可以提供预测精度的度量。
-
如果您的数据集具有多个混淆变量,则不应选择自动模型选择方法,因为您不想将它们同时放在模型中。
-
这也将取决于你的目标。与高度统计显着的模型相比,可以发现一个较不显著的模型易于实现。
-
回归正则化方法(Lasso,Ridge和ElasticNet)在数据集中的变量之间具有高维度和多重共线性的情况下可以较好使用。
尾注
到现在为止,我希望你对于回归有一个总体了解。这些回归技术应用应该考虑到数据条件。找出使用哪种技术的最好方法之一是检查变量簇,即离散或连续。
在本文中,我讨论了有关7种类型的回归和与每种技术相关的一些关键事实。作为这个行业的新人,我建议你学习这些技术,然后在你的模型中应用它们。
原创文章,转载请注明出处:光环大数据
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。 更多问题咨询,欢迎点击------>>>>在线客服!