目录

回归分析

目录

内生性和外生性

假设模型为: \(y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots +\beta_kx_k+\mu_i\)

内生性定义

\[ cov(x_j,\mu_i)\neq0, j\neq i \]

内生性的坏处

影响回归系数

解释

\(\mu_i\)为无法观测的且满足一定关系的扰动项 如果满足误差项 \(\mu_i\)与所有的自变量\(x\)均不相关,则称该回归模型具有外生性 (如果相关,则存在内生性,内生性会导致回归系数估计的不准确,不满足无偏性与一致性) 那么,\(\mu_i\) 包括什么? 包含了所有与y相关,但未添加到回归模型中的变量。 如果这些变量和我们已经添加的自变量相关,则存在内生性。 无内生性(no endogeneity)要求所有解释变量均与扰动项不相关。 这个假定通常太强,因为解释变量一般很多(比如,5‐15个解释变量),且需要保证它们全部外生。

是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心 解释变量与控制变量两类。

  • 核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计(当样本容量无限增大时,收敛于待估计参数的真值)。
  • 控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也放入回归方程,主要是为了“控制住” 那些对被解释变量有影响的遗漏因素。

在实际应用中,我们只要保证核心解释变量与𝝁不相关即可。

异方差

误差项的方差应为常数,不满足这个要求则说明模型具有异方差

在之前的回归分析里我们都默认扰动项是球形扰动项,即满足 同方差无自相关 两个条件。

如果扰动项存在异方差

(1)OLS估计出来的回归系数是无偏、一致的。 (2)假设检验无法使用(构造的统计量失效了)。 (3)OLS估计量不再是最优线性无偏估计量(BLUE)。

检验异方差

一般使用怀特检验

怎么解决异方差

(1)使用OLS + 稳健的标准误

如果发现存在异方差,一种处理方法是,仍然进行OLS 回归,但使用稳健标 准误。这是最简单,也是目前通用的方法。只要样本容量较大,即使在异方差的 情况下,若使用稳健标准误,则所有参数估计、假设检验均可照常进行。换言之, 只要使用了稳健标准误,就可以与异方差“和平共处”了。

(2)广义最小二乘估计法GLS

原理:方差较大的数据包含的信息较少,我们可以给予信息量大的数据(即方差 较小的数据更大的权重) 缺点:我们不知道扰动项真实的协方差矩阵,因此我们只能用样本数据来估计, 这样得到的结果不稳健,存在偶然性。

常用的是第一种方法。

多重共线性

回归模型中,两个或者两个以上的自变量彼此相关时,称回归模型中存在多重共线性。

为什么多重共线性会导致一系列问题呢?试想一下,假如两个变量完全共线性,设两个变量为A,B.那么A=xB,x是常数。如果把这两个变量带入回归方程,由于一个变量完全可以用另外一个变量乘以一个常数来表示,带入两个变量,就需要给他们分配系数,怎么分配呢,显然有很多种可能,而计算机并不知道哪一种是最好的,但是在输出结果时,它会给你一种,管它是不是你想要的呢,它只关心跑完了自己的程序。

多重共线性导致的问题: 1)线性关系显著(F检验显著,或者回归关系显著),大部分回归系数却不显著; 2)回归系数的符号与理论或者预期不符合。

多重共线性的识别:

1)各自变量之间显著相关(使用散点图矩阵和相关系数矩阵) 2)线性关系检验显著(F检验显著),各自变量系数却大多数不显著 3)回归系数正负号与预期相反 4)容忍度(tolerance)小于0.1或者方差扩大因子(VIF)大于10,认为存在严重共线性

多重共线性问题的处理 1)删除相关性很强的两个自变量中的一个,或者删除多个相关性很强的自变量中的几个变量; 2)降维。 3)增加样本数。

回归分析的五个基本假设

1.线性和可加性 2.误差项之间相互独立

若不满足,我们称模型之间具有自相关性

3.自变量之间相互独立 > 若不满足,则称模型具有多重共线性

如果我们发现本应相互独立的自变量们出现了一定程度(甚至高度)的相关性,那我们就很难得知自变量与因变量之间真正的关系了。 当多重共线性性出现的时候,变量之间的联动关系会导致我们测得的标准差偏大,置信区间变宽。 采用岭回归,Lasso回归可以一定程度上减少方差,解决多重共线性性问题。因为这些方法,在最小二乘法的基础上,加入了一个与回归系数的模有关的惩罚项,可以收缩模型的系数。也可以称为线性回归模型的正则化。

4.误差项的方差应为常数

若满足则具有同方差性,否则具有异方差性

异方差性的出现意味着误差项的方差不恒定,这常常出现在有异常值(Outlier)的数据集上,如果使用标准的回归模型,这些异常值的重要性往往被高估。在这种情况下,标准差和置信区间不一定会变大还是变小。

5.误差项应呈正太分布

还有一点就是误差项与自变量之间是独立的,要保证严格的外生性。