那些年,我们用过的DID

一、引子

我们都知道,计量分析的本质在于因果识别,而准确进行因果识别的一大关键就是对内生性的处理。虽然说工具变量法是解决内生性最常规的手段,但好的工具变量往往可遇不可求,或者需要突破天际的脑洞,或者需要深厚的文献积累。这个时候,似乎只剩下了一条明路:选题的时候就不要选那些明显有坑的主题,即核心解释变量明显内生的主题。一般来说,有三个原因会导致内生性——双向因果、遗漏变量与测量误差。由于后两者在选题之初并不突出,因而核心解释变量明显内生的主题便是那些核心解释变量与被解释变量明显互相影响的主题,比如经典的“制度环境与经济增长”。

之前在推文【计量经济学基础介绍(一)】里讲OLS时推荐过一篇论文“子女性别与父母幸福感”,这篇论文的核心解释变量是子女性别,被解释变量是父母幸福感。很显然,子女的性别是老天丢色子决定的,并不受父母幸福与否的影响,从而子女性别这一变量是外生的,回归分析时直接上OLS就好了。因此,为了避免找不到工具变量的苦恼,我们在选题的时候就可以尽量选类似逻辑的主题,比如对政策实施效果的考察。

通常来说,政策的制定与实施对于微观主体(个人或企业)而言是明显外生的,从而双向因果这一最大的问题迎刃而解,除此之外,遗漏变量和测量误差也不再是问题:首先,只有与政策冲击相关的遗漏变量对结果才有影响,而几乎很少有微观因素能影响到政策的实施;其次,政策实施与否以及政策的目标群体往往是很明确具体的,因而在度量上也不容易存在误差。一言以蔽之,当研究主题是政策效果评估时,基本不需要担忧内生性问题,回归估计时一般直接上OLS就好了。

我们同样都知道,DID是政策评估时经常使用的方法,听上去和用起来比OLS“高级”了很多,受到了无数应付毕业论文的同学的青睐。上面不是说一般用OLS就行了么,那什么时候上DID呢?这就需要细致考察DID这个方法的前提条件和适用范围了。


在介绍DID的基本原理之前,先了解两个使用DID的前提条件,以直观地判断自己的研究主题是否真的合适用DID:

  1. 至少两年的面板数据。如果只有截面数据,一般还是别考虑DID了。

  2. 政策冲击并非一刀切,具有受政策影响的实验组和不受政策影响的对照组。否则,同样别考虑DID了。



二、DID的基本介绍

DID,中文名“双重差分法”,英文名“Differences-in-Differences”,别名“倍差法”,小名“差中差”。作为政策效应评估方法中的一大利器,双重差分法受到越来越多人的青睐,概括起来有如下几个方面的原因:

  • 可以很大程度上避免内生性问题的困扰:政策相对于微观经济主体而言一般是外生的,因而不存在逆向因果问题。此外,使用固定效应估计一定程度上也缓解了遗漏变量偏误问题。

  • 传统方法下评估政策效应(比如OLS),主要是通过设置一个政策发生与否的虚拟变量然后进行回归,相较而言,双重差分法的模型设置更加科学,能更加准确地估计出政策效应。

  • 双重差分法的原理和模型设置很简单,容易理解和运用,并不像空间计量、DSGE等方法一样让人望而生畏。

  • 尽管双重差分法估计的本质就是面板数据固定效应估计,但是DID听上去或多或少也要比OLS、FE之流更加“时尚高端”,因而DID的使用一定程度上可以满足“虚荣心”。

  • ······


在讲DID的原理之前先看一看DID的基准模型设定,如下所示:

其中,du为分组虚拟变量,若个体i受政策实施的影响,则个体i属于处理组,对应的du取值为1,若个体i不受政策实施的影响,则个体i属于对照组,对应的du取值为0。dt为政策实施虚拟变量,政策实施之前dt取值为0,政策实施之后dt取值为1。du·dt为分组虚拟变量与政策实施虚拟变量的交互项,其系数就反映了政策实施的净效应,也是我们使用DID时最为关注的。


从模型的设定形式就知道了为什么上面要强调DID的两个前提条件:截面数据的话没法构造政策冲击变量dt,一刀切政策的话没法构造分组变量du。现在再回过头来问:为什么交互项du·dt的回归系数

很显然,是两次差分的结果,一次差分在时间维度,一次差分在个体维度。更直观地,可以用图形来表述上图以及DID的逻辑:

图中红色虚线表示的是假设政策并未实施时,实验组的变化趋势,即实验组的反事实情况。实际上,这个图形也反映出了DID最为重要和关键的前提条件:共同趋势(Common Trends),也就是说,处理组和对照组在政策实施之前必须具有相同的变化趋势。这一点后面再说。


因此,总结来说,双重差分法的基本思想或原理就是通过对政策实施前后对照组和处理组之间差异的比较构造出反映政策效果的双重差分统计量。将该思想与上表的内容转化为简单的模型(1),这个时候只需要关注模型(1)中交互项的系数,就得到了想要的DID下的政策净效应。模型(1)是DID的基准形式,在实际使用时,只需要加上控制变量就可以了。


到这一步,DID的基础内容就完了,是不是很简单?



三、DID的前提假设与稳健性检验

但是,这里有个但是,如同最基本的OLS也有四五个前提假设一样,使用DID时一定要注意这个方法本身的假设或前提条件。上面提到的使用DID的两个前提条件只是这个方法的适用范围,并不是方法本身的假设。其实上面的图形已经有所提示,DID最为重要、最为关键(甚至可以说唯一)的假设就是:处理组和对照组在政策实施之前必须具有共同的变化趋势。DID不要求随机分组,都随机了的话还要Double Difference干嘛呢,直接一个差就可以了;DID也不要求政策冲击是随机的。

很久以前推荐过一篇论文【论文推荐3:国内双重差分法的研究现状与潜在问题】,发表于《数量经济技术经济研究》2015年第7期,这篇论文就大谈特谈随机,误导了很多人(我认识的人就中过枪,答辩时被老师批了)。陆铭老师曾批这篇文章“影响极坏”。

那实际应用时应该怎么来检验共同趋势假设是否满足呢?首先强调一下,对于只有两年的面板数据,共同趋势假设是无法直接验证的,所以很多文章就不提这事儿。在多年的面板数据下,有两种方式可以用以关注CT:画图和回归。

A: 对于画图,举个例子,假设考察某一政策冲击对企业生产率的影响,政策发生在2001年,样本期间为1995-2006年,便可以画出1995-2001年间实验组和对照组的年度生产率(年度生产率均值)趋势图,如果两条线的走势完全一致或基本一致,说明CT假设是满足的。

B: 对于回归,还是继续看这个例子,可以建立如下的回归模型:

其中,du还是分组虚拟变量,但这时dt有所变化,dt为年份虚拟变量,当年份为1995时,dt取值为1,反之为0,当年份为1996时,dt取值为1,反之为0,等等。从而,政策实施前有6个年份虚拟变量,以及du与其得到的6个交互项。交互项的系数反映的便是,对于政策实施前的某一年,实验组和对照组的差异。如果回归得到的这6个交互项都不显著,说明政策实施前实验组和对照组不存在明显的差别,从而CT得证。其实,“都不显著”可以稍微放松,即便存在一两个显著的情况,但只要这6个联合不显著,也是能够说明问题的。

除了验证完CT假设外,DID的使用就算结束了?显然不是,一般的方法下尚且需要不少的稳健性检验呢。事实上,即便CT假设满足,我们也不能拍着胸脯说交互项的系数反映的一定是我们关注的政策效应而不是其他什么东西,这就需要进一步的稳健性检验以论证估计结果的可靠性了。DID中常用的稳健性检验有下面几种:

  1. 安慰剂检验。具体可以:a)选取政策实施之前的年份进行处理,比如原来的政策发生在2008年,研究区间为2007-2009年,这时可以将研究区间前移至2005-2007年,并假定政策实施年份为2006年,然后进行回归;b)选取已知的并不受政策实施影响的群组作为处理组进行回归。如果不同虚构方式下的DID估计量的回归结果依然显著,说明原来的估计结果很有可能出现了偏误。

  2. 利用不同的对照组进行回归,看研究结论是否依然一致。

  3. 选取一个完全不受政策干预影响的因素作为被解释变量进行回归,如果DID估计量的回归结果依然显著,说明原来的估计结果很有可能出现了偏误。要说明的是,如果回归结果显著,说明原结果是一定有问题的,而如果回归结果不显著,并不一定能表明原结果没问题。

  4. ···



四、面板数据固定效应形式

之前介绍的模型(1)是DID最普通和一般的形式,然而我们在看文献时往往发现别人的模型不长这个样子,哪里出问题了?先来看一看别人的DID模型的样子:

我们知道,凡是做交互项,组成交互项的各个部分(A、B以及A·B)是一定要同时存在的,可是别人的模型里只有交互项,du哪里去了,dt哪里去了?其实,模型(3)在多年面板数据里比基准形式更为常见,对于面板数据,通常的估计方法是双向固定效应。这里面,为个体固定效应,更为精确地反映了个体特征,替代了原来粗糙的分组变量du;为时间固定效应,更为精确地反映了时间特征,替代了原来粗糙的政策实施变量dt。因而,du和dt并未真正从模型中消失,只是换了个马甲而已。

既然模型(1)和(3)本质是一样的,那实际使用时应该用哪个好呢?emmm,其实都行,根据研究需要选择,比如除了交互项系数,还想关注下du或dt的系数,那这时无疑应该用模型(1)。


五、扩展部分

在上面的部分,首先介绍了DID的基本模型设定和方法原理,接着强调了使用DID的关键假设和稳健性检验,最后说明了多年面板数据下DID模型设定的另一种常见形式。应该说,这些就是DID这个方法最基本和基础的内容了。会了这些东西,用DID行走江湖问题应该不大了。

但是,这里又有一个但是,江湖路途险恶,凭一把菜刀能走多远呢?严肃一点说,DID之所以这么流行和受大家喜欢,很大程度上与它的灵活多变有关系,做适当的调整就能用来应对不同的状况。所以,接下来再介绍一些DID的扩展内容。

扩展1:滞后效应与预期效应

不论是模型(1)还是模型(3),估计出来的都是政策实施后的一个平均效应然而,对于有些政策,其效果的显现需要一定的时间,比如政策2008年开始实施,但其效果2010年才开始出现。对政策滞后效应的考察往往很重要,有助于我们准确地评估政策的动态效果,为政策的调整和完善提供建议。同样的,政策的出台和实施通常不是突然的毫无预兆的,微观主体如果预期到某个时点政策一定会推行,可能会提前做出反应,这便是预期效应。对预期效应的考察一样很重要。

上面的模型(2)除了可以用来观察CT外,还可以用来考察预期效应,比如政策是2001年实施的,而2000年的交互项显著,说明可能存在预期效应。将模型(2)中的年份换成政策实施之后,便可以用以考察滞后效应了,比如政策是2001年实施的,2002年和2003年的交互项不显著,从2004年开始才显著,说明政策效应可能存在两年左右的时滞。

扩展2:倾向得分匹配倍差法(PSM-DID)

倾向得分匹配法(PSM)本身就是一个单独的方法,内容也很多,所以当和DID结合时这里就不细讲了,以后再专门介绍PSM这个方法。

PSM和DID都是单独可用的方法,结合在一起能干嘛呢?可以这么简单理解,DID不是要求共同趋势吗?共同趋势不是意味着实验组和对照组基本类似吗?然而很多时候我们的原始样本并不满足这个条件。这时,我们可以先用PSM在原始样本中挑选出基本特征都比较相似的新的实验组和对照组,然后再基于新的实验组对照组进行DID回归,这种情况下CT假设肯定妥妥的满足了。另外,对于某些政策冲击,实验组和对照组之间可能存在自选择性,而这会对结果产生影响。比如,研究出口问题时,企业是否出口(是否进入实验组或对照组)可能就并不是偶然的,这时用PSM也能较好地解决这个问题。不过,不是所有政策冲击情景下都能PSM搭配DID,这涉及到PSM的基本原理,以后细说。

扩展3:XXXXX

小标题没想好,暂时用XXXXX代替吧。在上面关于DID的介绍中,说的是需要“非一刀切政策”以及“受政策影响的实验组和不受政策影响的对照组”,那这是不是意味着,某一群组只受到了一点点影响就不能作为对照组、从而无法使用DID呢?并不是这样的。即便是政策冲击是一刀切的,但只要某一群组受到的影响很大,某一群组受到的影响比较微弱,只要满足CT,仍然是可以使用DID的。比如在关于贸易自由化的研究中,学者们较多使用我国2001年加入WTO这个外生冲击做DID分析,这一冲击的明显表现就是行业关税的变化,几乎所有行业的关税都受到了影响。不过,有的行业关税下降幅度特别大,有的则下降很小。这时,便可以把前者当做实验组,后者当做对照组,然后进行常规的DID回归即可。

扩展4:连续型DID

不管是DID的基准模型还是面板数据双向固定效应形式的模型,du和dt都是虚拟变量的形式,从而交互项估计系数的结果表明的是:政策实施之后的效应。也就是说,这里体现的是有与无之间的区别。以一个具体的例子为例,在研究出口的问题中使用DID,交互项表明的是,企业出口(有这个行为)的影响。这种设定无法体现出程度的变化,比如无法体现出出口数额的影响,出口数额每增加一单位的影响。

如果我们想考察程度的变化,便可以采用连续型DID进行估计,基准模型设定如下:

模型(4)与模型(1)的区别在于,原来的分组虚拟变量被连续型变量rate所替代了。在出口问题的考察中,rate可以是企业的出口额或出口比例;在空气污染问题的考察中,rate可以是AQI(空气质量指数)的具体数值,等等。此时,交互项的系数反映的是,政策实施之后,rate每一单位变化带来的净效应。

尽管模型(4)看上去就是最普通的交互项模型,跟传统的DID好像一点也不搭,但它确实也是DID大家庭中的一种。之前就说过,DID十分的灵活多变,若是死板地认为模型(1)才是DID,可就贻笑大方了。模型(4)这种形式较早出现在Nancy Qian的文章里,她称这种形式“具有DID的一切优点”。

扩展5:截面数据DID

是不是有点郁闷?最开始的时候不是说截面数据就不要想着用DID了?回过头去再看一下,说的是“一般还是别···”,没说“一定”。和模型(1)或(3)一样的传统型DID肯定是无法适用于截面数据的,但模型(4)都算DID,截面数据做DID也不是不可能的。

这里还是举个例子来说明这种情况。Chen and Zhou有一篇文章是研究大饥荒的影响的,数据是CHNS的截面数据。由于大饥荒发生于1959-1961年间,他们根据人们的出生年份构造出几个出生队列虚拟变量,比如cohort2(饥荒前2年出生)、cohort1(饥荒前1年出生)等等(说明一下,论文中的原设定不是这样随便,这里简化了一下),然后用出生队列与省份层面的饥荒严重程度进行交乘:

模型(5)和模型(2)以及(4)是不是很像?这时,交互项的系数反映的便是截面意义上的DID效果。对这篇论文感兴趣的可以下载原文下来看看,论文于2007年发表在JHE上。