引言

计量经济学的工具就是有条理的数据分析，同时辅之以统计推断。我们的工作也有神秘一面：我们在追寻真理，但是真理尚未得到充分揭示，而且数据传达的信息也需要诠释。
当满足其他条件相同时，我们可以为相应的比较赋予一个因果解释。
也许，虽然很难设计真正做到「其他条件相同」的比较，但也不是绝对不可能。尽管在将原始数据转化为可靠的因果结论的过程中会遇到障碍——我们称其为选择偏误或遗漏变量偏误，计量方法还是可以使用数据实现其他条件相同的假设。探寻因果关系的道路上充满着崎岖和阴影，因为到处都隐藏着选择偏误。计量经济学高手会带着自信但谦虚的心态来穿越这条路，成功地将原因和结果联系起来。
通过随机改变所处环境，我们有极大可能让感兴趣的变量与决定实验结果的很多其他因素无关。随机分配不同于保持其他条件不变，但它能产生相同效果。随机操纵能够在「平均」意义上让受到操纵和未受操纵的组别保持其他条件相同。
随机实验、回归、工具变量、断点回归设计和双重差别，组成计量经济学研究的「盖世五侠」（Furious Five）。

1 随机实验

实验性随机分配既可以成为研究因果问题的一个框架，也可以成为对其他方法所得结论进行判断的一个基准。
一个好的控制组可以揭示受到处理（treatment）的那些人在反事实世界中不受处理产生的结果。
对于是否购买医疗保险，个体 $i$ 有两个潜在结果（potential outcome），但是，我们只能观察到其中一个结果。为了将两类潜在结果区分开来，我们增加第二个下标：没有医疗保险时个体 $i$ 走上的那条路以 $Y_{0i}$ 表示，拥有医疗保险时个体 $i$ 走上的那条路，可以标记为 $Y_{1i}$。潜在结果出现在每条可选道路的尽头。医疗保险对健康产生的因果效应就是二者之差，记为 $Y_{1i}-Y_{0i}$。
你可能会认为，当我们将关注点放在特定个人而不是某个组时，选择偏误才会产生影响，也许，无关的差异将会被「平均」掉。但是，在组之间进行比较时，选择偏误这个难题依然存在，只不过我们将关注点从个体因果效应转移到平均因果效应（average causal effect）上。
组件均值之差 = 平均因果效应 + 选择偏误。这里，选择偏误被定义为进行比较的两个群体中 $Y_{0i}$ 的平均值之差。因为 $Y_{0i}$ 代表与第 $i$ 个人的健康水平有关，但与医疗保险状况无关的任何因素，所以可以知道根据不同医疗保险状况计算出的均值差确实受到选择偏误的干扰。
如果选择偏误的唯一来源是我们可观察、可度量的特征上表现出的一系列差异，那么这种选择偏误（相对）容易得到解决。
计量高手们面临的主要挑战就是消除因不可观测的差异造成的选择偏误。
实验性随机分配能够消除选择偏误。随机实验（有时也叫随机试验）的流程可以很复杂，但其逻辑是简单的。为了在随机实验中研究医疗保险产生的影响，我们从一些没有医疗保险的人组成的样本开始。然后，我们为随机抽取的一个样本自己提供医疗保险，让剩下的人在需要就诊时去急诊室。然后，就可以比较拥有医疗保险的组和没有医疗保险的组的健康水平。随机分配使这个比较满足了「其他条件相同」：通过随机分配得到的拥有医疗保险的组和没有医疗保险的组，其唯一差别在于他们的医疗保险状态不同，以及由此产生的任何后果。
当样本规模足够大时，被随机选择的两个组确实是可比的。这个事实来自于被称为大数定律（Law of Large Numbers，LLN）的统计特征所具有的强大威力。大数定律描述的是样本均值与样本规模之间的关系。具体地说，大数定律指出，当样本规模不断增加时，样本均值会越来越接近我们从中抽样的总体的均值。
在随机实验中，我们不是重复某个游戏，而是针对研究的总体进行抽样以形成样本。不过，大数定律仍然发挥着相同作用。当抽样对象被随机划分（类似于掷硬币）为处理组和控制组时，它们都来自同一个总体。因此，大数定律认为，如果样本规模足够大，随机抽取的处理组和控制组将是类似的。例如，在随机分配的处理组和控制组中，我们预期能够看到类似的男女比例。随机分配还能产生具有相同年龄和相似教育水平的组。事实上，随机分配的组应该在每个方面都类似，其中包括我们难以度量或难以观察的那些方面。这是随机分配具有消除选择偏误这一强大能力的根源所在。
只要手头的样本规模大到能让大数定律发挥作用，随机实验就能让选择偏误消失。随机分配发挥作用的方式不是消除个体差异，而是确保被比较的个体所形成的组是类似的。可以将这种做法认为是比较两个桶，这两个桶中装的苹果和橙子的比例都相同。
在比较的过程中随机化并不是确保「其他条件相同」的唯一方法，但是大部分计量高手都认为这种方法是最好的。
对来自随机实验或其他研究设计的数据进行分析时，计量高手们几乎都会从检查处理组和控制组是否真的看起来相似开始。这个过程被称为平衡性检查（checking for balance）。类似于对样本均值的的比较，若平均特征看上去不相似或不平衡，这暗示了一个事实，即这个表中的数据并非来自随机实验。一旦你要估计因果效应，就应该用这种方式检查平衡性。
大于两倍标准误的差异被认为是统计显著（statistically significant）的：在这种情况下，这么大的差异很难（虽然不是不可能）单纯由偶然性引起。统计不显著的差异可能源于抽样过程中出现的变异。在有着许多比较的表中，几个孤立的、具有统计显著性的差别往往也都可以归结于偶然性。
使用随机分配进行的研究已经指出，很多低脂肪饮食和维生素摄入等生活方式的选择，都与健康结果无关。

1.1 附录：掌握统计推断

对抽样中存在的不确定性进行量化，是任何经验研究都必须要有的步骤，也是理解其他人给出的统计判断的一种方法。
不能指望样本均值和相应的总体均值完全相等：在一个样本中的样本均值可能会过大，在另一个样本中的均值可能会过小。无偏性告诉我们，这种偏差不会系统性地偏大或偏小；相反，在重复抽样中，这些偏差的均值应该趋于 0,。这种无偏性与大数定律不同，大数定律是说，随着样本规模增加，样本均值会越来越接近于总体均值。样本均值的无偏性则是对任何规模的样本都成立。
抽样方差（sampling variance）度量了重复抽样中样本统计量的变异性，而不是原始数据的离散型。
样本均值的标准误可记为：$SE(\bar{Y}) = \frac{\sigma_Y}{\sqrt{n}}$。
标准误总结的是估计值因为随机抽样而产生的变动状况。我们要避免混淆「变量的标准差」和「统计量的标准误」。
在实际中，当对样本均值的抽样方差进行量化时，我们实际使用的是估计的标准误（estimated standard error）。通过在 $SE(\bar{Y})$ 的计算公式中使用 $S(Y_i)$ 代替 $\sigma_Y$，就可以得到这个估计值。具体而言，样本均值的估计标准误差可以写为：$\hat{SE}(\bar{Y})=\frac{S(Y_i)}{\sqrt{n}}$。
一个精彩的统计学事实是，如果 $E(Y_i)$ 确实等于 $\mu$，那么——只要样本规模足够大——$t(\mu)$ 值的抽样分布就会非常接近于钟型的标准正态分布。无论 $Y_i$ 本身是否是正态分布，这个性质都是成立的，这被称为中心极限定理（Central Limit Theorem，CLT）。中心极限定理允许我们就可得数据支持还是不支持 $E(Y_i)$ 等于 $\mu$ 的假设进行经验决策。

2 回归

回归（regression）就是比较具有相同可观测特性的处理组和控制组。基于回归进行因果推断的前提假设是，当处理组和控制组在可观察的关键变量上都一样时，我们看不见的因素造成的选择偏误几乎都能得到消除。
要从学校选择决策中分离偶然性，最重要的第一步是，使进入私立大学和公立大学的学生之间最明显、最重要的差别保持不变。通过这种方式，我们希望（虽然不能保证）做到其他条件不变。
通过强调规模更大的组别，这种加权平均方式能够更有效地利用数据，而且，也可能因此给出在统计上更精确的私立学校-公立学校毕业生收入差异估计值。
匹配（matching）比较的本质是要做到苹果和苹果比、橘子和橘子比。不加控制的比较所得差值如此之大，反映出的是选择偏误：向私立大学提出入学申请并被录取的学生，无论去哪里上学都会有更高的收入水平。
虽然回归是件相当了不起的事情，但是我们将它视为一种自动配对器。具体来说，回归估计值是在我们简化的匹配矩阵中针对各类构造出的组别进行多种匹配比较后计算出的加权平均值。
回归方法中的关键元素是：
- 因变量（dependent variable）
- 处理变量（treatment variable）
- 一组控制变量（control variable）
处理变量和控制变量之间的区别是概念性的，不是形式上的。你的研究问题和选择的经验研究策略决定了变量的选择，也决定了它们各自发挥的作用。
使用对数因变量，可以将回归估计值解释为百分比变化。

To be continued

回归

--- title: "精通计量" subtitle: "从原因到结果的探寻之旅" date: "2023-09-04" date-modified: "2023-09-21" image: "cover.jpg" categories: - Econometrics - Causal Inference --- ```{r} #| include: false 1 + 1 ``` ::: {.callout-note title='Progress'} `r stfun::progress(41, 184)` ::: ::: {.callout-tip title="Learning Source"} - <https://book.douban.com/subject/33462737/> ::: # 引言 {-} - 计量经济学的工具就是有条理的数据分析，同时辅之以统计推断。我们的工作也有神秘一面：我们在追寻真理，但是真理尚未得到充分揭示，而且数据传达的信息也需要诠释。 - 当满足其他条件相同时，我们可以为相应的比较赋予一个因果解释。 - 也许，虽然很难设计真正做到「其他条件相同」的比较，但也不是绝对不可能。尽管在将原始数据转化为可靠的因果结论的过程中会遇到障碍——我们称其为**选择偏误**或**遗漏变量偏误**，计量方法还是可以使用数据实现其他条件相同的假设。探寻因果关系的道路上充满着崎岖和阴影，因为到处都隐藏着选择偏误。计量经济学高手会带着自信但谦虚的心态来穿越这条路，成功地将原因和结果联系起来。 - 通过随机改变所处环境，我们有极大可能让感兴趣的变量与决定实验结果的很多其他因素无关。随机分配不同于保持其他条件不变，但它能产生相同效果。随机操纵能够在「平均」意义上让受到操纵和未受操纵的组别保持其他条件相同。 - 随机实验、回归、工具变量、断点回归设计和双重差别，组成计量经济学研究的「盖世五侠」（Furious Five）。 # 随机实验 - 实验性随机分配既可以成为研究因果问题的一个框架，也可以成为对其他方法所得结论进行判断的一个基准。 - 一个好的控制组可以揭示受到**处理**（treatment）的那些人在反事实世界中不受处理产生的结果。 - 对于是否购买医疗保险，个体 $i$ 有两个潜在结果（potential outcome），但是，我们只能观察到其中一个结果。为了将两类潜在结果区分开来，我们增加第二个下标：没有医疗保险时个体 $i$ 走上的那条路以 $Y_{0i}$ 表示，拥有医疗保险时个体 $i$ 走上的那条路，可以标记为 $Y_{1i}$。潜在结果出现在每条可选道路的尽头。医疗保险对健康产生的因果效应就是二者之差，记为 $Y_{1i}-Y_{0i}$。 - 你可能会认为，当我们将关注点放在特定个人而不是某个组时，选择偏误才会产生影响，也许，无关的差异将会被「平均」掉。但是，在组之间进行比较时，选择偏误这个难题依然存在，只不过我们将关注点从个体因果效应转移到**平均因果效应**（average causal effect）上。 - 组件均值之差 = 平均因果效应 + 选择偏误。这里，选择偏误被定义为进行比较的两个群体中 $Y_{0i}$ 的平均值之差。因为 $Y_{0i}$ 代表与第 $i$ 个人的健康水平有关，但与医疗保险状况无关的任何因素，所以可以知道根据不同医疗保险状况计算出的均值差确实受到选择偏误的干扰。 - 如果选择偏误的唯一来源是我们可观察、可度量的特征上表现出的一系列差异，那么这种选择偏误（相对）容易得到解决。 - 计量高手们面临的主要挑战就是消除因不可观测的差异造成的选择偏误。 - 实验性随机分配能够消除选择偏误。随机实验（有时也叫随机试验）的流程可以很复杂，但其逻辑是简单的。为了在随机实验中研究医疗保险产生的影响，我们从一些没有医疗保险的人组成的样本开始。然后，我们为随机抽取的一个样本自己提供医疗保险，让剩下的人在需要就诊时去急诊室。然后，就可以比较拥有医疗保险的组和没有医疗保险的组的健康水平。随机分配使这个比较满足了「其他条件相同」：通过随机分配得到的拥有医疗保险的组和没有医疗保险的组，其唯一差别在于他们的医疗保险状态不同，以及由此产生的任何后果。 - 当样本规模足够大时，被随机选择的两个组确实是可比的。这个事实来自于被称为**大数定律**（Law of Large Numbers，LLN）的统计特征所具有的强大威力。大数定律描述的是样本均值与样本规模之间的关系。具体地说，大数定律指出，当样本规模不断增加时，样本均值会越来越接近我们从中抽样的总体的均值。 - 在随机实验中，我们不是重复某个游戏，而是针对研究的总体进行抽样以形成样本。不过，大数定律仍然发挥着相同作用。当抽样对象被随机划分（类似于掷硬币）为处理组和控制组时，它们都来自同一个总体。因此，大数定律认为，**如果样本规模足够大，随机抽取的处理组和控制组将是类似的**。例如，在随机分配的处理组和控制组中，我们预期能够看到类似的男女比例。随机分配还能产生具有相同年龄和相似教育水平的组。事实上，随机分配的组应该在每个方面都类似，其中包括我们难以度量或难以观察的那些方面。这是**随机分配具有消除选择偏误这一强大能力**的根源所在。 - 只要手头的样本规模大到能让大数定律发挥作用，随机实验就能让选择偏误消失。随机分配发挥作用的方式不是消除个体差异，而是确保被比较的个体所形成的组是类似的。可以将这种做法认为是比较两个桶，这两个桶中装的苹果和橙子的比例都相同。 - 在比较的过程中随机化并不是确保「其他条件相同」的唯一方法，但是大部分计量高手都认为这种方法是最好的。 - 对来自随机实验或其他研究设计的数据进行分析时，计量高手们几乎都会从检查处理组和控制组是否真的看起来相似开始。这个过程被称为**平衡性检查**（checking for balance）。类似于对样本均值的的比较，若平均特征看上去不相似或不平衡，这暗示了一个事实，即这个表中的数据并非来自随机实验。一旦你要估计因果效应，就应该用这种方式检查平衡性。 - 大于两倍标准误的差异被认为是**统计显著**（statistically significant）的：在这种情况下，这么大的差异很难（虽然不是不可能）单纯由偶然性引起。统计不显著的差异可能源于抽样过程中出现的变异。在有着许多比较的表中，几个孤立的、具有统计显著性的差别往往也都可以归结于偶然性。 - 使用随机分配进行的研究已经指出，很多低脂肪饮食和维生素摄入等生活方式的选择，都与健康结果无关。 ## 附录：掌握统计推断 - 对抽样中存在的不确定性进行量化，是任何经验研究都必须要有的步骤，也是理解其他人给出的统计判断的一种方法。 - 不能指望样本均值和相应的总体均值完全相等：在一个样本中的样本均值可能会过大，在另一个样本中的均值可能会过小。无偏性告诉我们，这种偏差不会系统性地偏大或偏小；相反，在重复抽样中，这些偏差的均值应该趋于 0,。这种无偏性与大数定律不同，大数定律是说，随着样本规模增加，样本均值会越来越接近于总体均值。样本均值的无偏性则是对任何规模的样本都成立。 - **抽样方差**（sampling variance）度量了重复抽样中样本统计量的变异性，而不是原始数据的离散型。 - 样本均值的标准误可记为：$SE(\bar{Y}) = \frac{\sigma_Y}{\sqrt{n}}$。 - 标准误总结的是估计值因为随机抽样而产生的变动状况。我们要避免混淆「变量的标准差」和「统计量的标准误」。 - 在实际中，当对样本均值的抽样方差进行量化时，我们实际使用的是**估计的标准误**（estimated standard error）。通过在 $SE(\bar{Y})$ 的计算公式中使用 $S(Y_i)$ 代替 $\sigma_Y$，就可以得到这个估计值。具体而言，样本均值的估计标准误差可以写为：$\hat{SE}(\bar{Y})=\frac{S(Y_i)}{\sqrt{n}}$。 - 一个精彩的统计学事实是，如果 $E(Y_i)$ 确实等于 $\mu$，那么——只要样本规模足够大——$t(\mu)$ 值的抽样分布就会非常接近于钟型的标准正态分布。无论 $Y_i$ 本身是否是正态分布，这个性质都是成立的，这被称为**中心极限定理**（Central Limit Theorem，CLT）。中心极限定理允许我们就可得数据支持还是不支持 $E(Y_i)$ 等于 $\mu$ 的假设进行经验决策。 # 回归 - 回归（regression）就是比较具有相同可观测特性的处理组和控制组。基于回归进行因果推断的前提假设是，当处理组和控制组在可观察的关键变量上都一样时，我们看不见的因素造成的选择偏误几乎都能得到消除。 - 要从学校选择决策中分离偶然性，最重要的第一步是，使进入私立大学和公立大学的学生之间最明显、最重要的差别保持不变。通过这种方式，我们希望（虽然不能保证）做到其他条件不变。 - 通过强调规模更大的组别，这种加权平均方式能够更有效地利用数据，而且，也可能因此给出在统计上更精确的私立学校-公立学校毕业生收入差异估计值。 - 匹配（matching）比较的本质是要做到苹果和苹果比、橘子和橘子比。不加控制的比较所得差值如此之大，反映出的是选择偏误：向私立大学提出入学申请并被录取的学生，无论去哪里上学都会有更高的收入水平。 - 虽然回归是件相当了不起的事情，但是我们将它视为一种自动配对器。具体来说，回归估计值是在我们简化的匹配矩阵中针对各类构造出的组别进行多种匹配比较后计算出的加权平均值。 - 回归方法中的关键元素是： - 因变量（dependent variable） - 处理变量（treatment variable） - 一组控制变量（control variable） - 处理变量和控制变量之间的区别是概念性的，不是形式上的。你的研究问题和选择的经验研究策略决定了变量的选择，也决定了它们各自发挥的作用。 - 使用对数因变量，可以将回归估计值解释为百分比变化。 ::: {.callout-tip title="To be continued"} - 回归 :::