社群群友@乾坤大洛阳 分享了一篇文章“Good Controls Gone Bad: Difference-in-Differences with Covariates”,很有指导意义。说的是,实证研究中双重差分 (DID) 分析的时变控制变量选择问题。简短一点说:
在实证研究中,双重差分 (DID) 方法已成为评估政策效果的常用利器。但很多研究者在使用 DID 方法时,常常会在时变控制变量的选择上犯难:变量到底该不该加?什么样的变量才能加?加错了变量会有什么后果?别担心!这篇文章就来手把手教你,如何正确选择和使用时变控制变量,让你的 DID 分析更上一层楼!
在 DID 分析中,有一个非常重要的“共同因果协变量 (CCC) 假设”。简单来说,这个假设要求你选择的控制变量,它们对结果变量的影响,在不同组别(例如,政策处理组 vs. 对照组)之间、以及在不同时间段之间,都应该是保持一致的。
违反 CCC 假设的后果很严重。如果控制变量本身会受到政策的影响,或者控制变量的影响在不同组别或时间段之间不一致,那么你的 DID 分析结果就可能出现偏差,甚至得出错误的结论。反之,只有那些对结果的影响稳定,并且不直接受政策影响的变量,才是符合 CCC 假设的好变量。
案例实践:变量加还是不加?“宽带中国” 政策案例:不能加的变量:宽带接入率。 为什么? “宽带中国” 政策的目的就是为了提升宽带接入率,所以宽带接入率直接受政策影响。而且,宽带接入率提升的效果,在不同地区可能也不一样,这也违反了 CCC 假设。能加的变量:农业占比。为什么?农业占比通常不受 “宽带中国” 政策的直接影响,并且农业占比对城乡收入差距的影响也相对稳定,更符合 CCC 假设。数字城市试点政策案例:不能加的变量:互联网普及率。为什么?因为数字城市试点政策,本身就可能会直接推动互联网普及率的提升。这样一来,互联网普及率既受到政策的影响,又会反过来影响经济增长,这就违反了 CCC 假设。能加的变量:人口密度。为什么?因为人口密度对经济增长的作用相对稳定,并且一般不受数字城市试点政策的直接影响,相对来说更符合 CCC 假设。避坑指南:如何避免“踩坑”?
时变控制变量,到底加不加?
能加的情况:如果某个时变控制变量,它对结果的影响在不同组别和时间段都保持一致,并且不受政策的直接影响,那么就可以考虑加入。
不能加的情况:如果某个时变控制变量,它会受到政策的影响,或者它对结果的影响会随着时间或组别的变化而变化,那么就不能加。
方法推荐:
平行趋势图:在调整了控制变量之后,务必画出平行趋势图,仔细观察处理组和对照组的趋势是否真的 “平行”。这是检验 CCC 假设是否合理的一个重要手段。
DID-INT方法: 如果发现CCC假设被违反,传统的DID方法可能不再适用。这时,可以考虑尝试使用更灵活的 DID-INT方法(本文提出的交集双重差分方法)来替代传统 DID 方法,以获得更可靠的估计结果。
结论:时变控制变量的选择,一定要谨慎!谨慎!再谨慎!只有那些真正符合CCC假设的变量,才能真正提高DID分析结果的稳健性。
稍长一点说:
双重差分 (DiD) 方法作为评估区域性政策效果的有力工具,已被广泛应用。然而,现有 DiD 方法的应用对协变量的选择提出了较高要求,研究人员需要精心挑选协变量,以确保最终能够获得处理组平均处理效应 (ATT) 的无偏估计。 学术文献普遍建议,当协变量本身会随时间变化时,应尽量选择时不变的协变量,或者使用处理前的协变量数值。尽管如此,在实际研究中,研究人员可能仍然希望将随时间变化的协变量纳入DiD分析框架,即便这些协变量并非保证平行趋势假设成立的必要条件。为了帮助研究人员在处理时变协变量时依然能够获得无偏的 ATT 估计,本文创新性地提出了一种新的分析工具——交集双重差分 (DID-INT) 方法,为现有文献做出了重要贡献。
本研究的核心创新在于首次明确提出了“共同因果协变量(CCC)假设”。我们论证了,该假设是确保在使用时变协变量时,依然能够获得无偏ATT估计的关键前提。更具体地说,本文详细阐述了三种不同类型的 CCC 假设:状态不变 CCC 假设、时间不变 CCC 假设 以及 双向 CCC 假设。 虽然这些假设在以往的研究中有所涉及,但始终没有得到明确的界定和充分的讨论。 状态不变 CCC 假设 认为,协变量的影响效应在不同地区之间应当是一致的;时间不变 CCC 假设 则认为,这些效应随时间推移应保持稳定;双向 CCC 假设 则整合了前两者,意味着协变量的影响效应在不同地区和不同时间点都应保持一致。值得注意的是,当双向 CCC 假设成立时,状态不变 CCC 假设和时间不变 CCC 假设也必然同时成立。
基于对协变量的不同假设,本文进一步构建了三种不同版本的 DID-INT 估计量。状态变异 DID-INT 估计量通过引入与地区虚拟变量的交互项,有效处理了状态不变 CCC 假设被违反的情形;时间变异 DID-INT 估计量则通过引入与时间虚拟变量的交互项,解决了时间不变 CCC 假设不成立的问题;双向 DID-INT 估计量更进一步,通过同时引入与地区和时间虚拟变量的交互项,全面应对了双向 CCC 假设可能被违反的各种情况。这种新提出的 DID-INT 估计量依赖于对结果变量残差进行平行趋势检验,并允许协变量以灵活的函数形式纳入模型。这种灵活性使得 DID-INT 方法能够有效恢复传统方法可能遗漏的平行趋势特征,从而提升估计的准确性。
通过严谨的理论推导和深入的蒙特卡罗模拟研究,本文明确指出,当双向 CCC假设不成立时,传统的双向固定效应 (TWFE) 估计量会产生偏差。我们在一个处理时间安排复杂,但假设处理效应同质的场景下验证了这一结论。研究结果还表明,当双向 CCC 假设被违反时,对传统 TWFE 方法进行改进(例如通过与协变量进行交互)可以提供无偏的 ATT 估计,但会不可避免地造成效率损失。相比之下,本文提出的双向 DID-INT 方法不仅能够提供无偏的 ATT 估计,而且在估计效率上优于标准的 TWFE 方法和改进后的 TWFE 方法。更重要的是,DID-INT 方法对传统 TWFE 方法中普遍存在的无效比较问题和负权重问题具有更强的稳健性,尤其是在放宽处理效应同质性假设的情况下,优势更加明显。
此外,本文还将双向DID-INT 方法与 CS-DID (协变量子集双重差分) 估计量 以及 FLEX 估计量 进行了深入比较。这两种方法同样致力于解决在处理时间安排复杂和处理效应异质性情境下,传统方法存在的无效比较和负权重问题。研究结果表明,无论双向 CCC 假设是否成立,CS-DID 估计量都可能产生偏差,尤其是在存在随时间变化的协变量时,偏差问题更为突出。FLEX 估计量在双向 CCC 假设成立时能够提供无偏估计,但一旦双向 CCC 假设被违反,其估计结果也会产生偏差。最后,本文通过构建四个不同的数据生成过程 (DGP),系统地比较了状态变异 DID-INT 估计量、时间变异 DID-INT 估计量以及双向 DID-INT 估计量在偏差和效率方面的表现。研究结果清晰地显示,双向 DID-INT 估计量在所有 DGP 下均能保持无偏性,但其估计效率相对低于其他两种 DID-INT 估计量。当仅有状态不变 CCC 假设被违反时,状态变异 DID-INT 估计量能够保持无偏,而时间变异 DID-INT 估计量则会产生偏差;反之,当仅有时间不变 CCC 假设被违反时,时间变异 DID-INT 估计量能够保持无偏,而状态变异 DID-INT 估计量则会产生偏差。考虑到在实际应用中,研究人员通常无法事先知晓真实的数据生成过程 (DGP),本文建议 在实证研究中默认采用双向 DID-INT 估计量,因为它在各种 DGP 情形下均能保证估计结果的无偏性,具有更强的普适性和稳健性。
更长一点说:
双重差分(DiD)方法是评估政策效果的常用工具,尤其是在省级层面等非随机政策实施效果评估中应用广泛。在最简单的“两组两期”场景下,DiD方法通过比较处理组和对照组在政策干预前后的结果变化差异,来估算政策的处理效应(Bertrand et al., 2004)。这种简单的分析框架为在更复杂的、具有错综复杂处理时间安排的情况下,估计处理组的平均处理效应(ATT)奠定了基础。Callaway和Sant’Anna(2021)、De Chaisemartin和d’Haultfoeuille(2023)以及Sun和Abraham(2021)等学者对此类复杂情况下的DiD方法进行了深入研究。
无论是经典还是现代的DiD方法,都建立在一系列经过充分验证的假设之上,以确保ATT估计的无偏性。其中,“强平行趋势假设”、没有预期效应以及处理效应同质性是至关重要的假设,而强平行趋势假设尤为关键 (Roth et al., 2022; Abadie, 2005; De Chaisemartin and d’Haultfoeuille, 2020a; Callaway and Sant’Anna, 2021)。强平行趋势假设认为,在没有政策干预的情况下,处理组和对照组的平均结果变量会沿着相似的趋势变动(Abadie, 2005)。由于研究者无法直接观测到处理组在未受政策影响时的潜在结果,因此,通常会通过检验政策干预前处理组和对照组的结果变量趋势,来评估政策实施后平行趋势假设的合理性。
为了使平行趋势假设更贴近实际,研究人员通常会对该假设进行一定程度的放宽,使其仅需要在控制协变量的条件下成立 (Roth et al., 2022)。在传统的DiD估计方法中,通常会构建如下所示的双向固定效应(TWFE)回归模型,并在模型中纳入协变量 (Bertrand et al., 2004):
Yi,g,t=αg+δt+βDDi,g,t+∑kγkXk,i,g,t+ϵi,g,t
其中:αg\alpha_gαg 表示个体固定效应,用于捕捉个体层面未被观测到的异质性特征。
δt\delta_tδt 表示时间固定效应,用于控制时间层面的共同趋势。
Di,g,tD{i,g,t}Di,g,t 是在时间ttt时期,组别ggg中个体iii的处理虚拟变量,指示个体是否受到政策处理。
Xk,i,g,tX{k,i,g,t}Xk,i,g,t 代表第kkk个协变量,协变量可以是时不变的,也可以是随时间变化的。模型中总共包含KKK个协变量。
文献中强调,在进行双重差分(DiD)分析时,协变量的选择至关重要。尤其需要注意的是,那些会受到政策处理本身影响的协变量,在文献中常被称为“坏控制变量”。研究指出,这类变量不应被纳入到分析模型中(Caetano & Callaway, 2024)。此外,DiD研究领域的专家还建议,当必须使用协变量时,如果协变量本身会随时间变化,那么最好选择时不变的协变量,或者使用政策处理前的协变量值(Caetano & Callaway, 2024)。
然而,在实际研究中,研究人员可能仍然希望在DiD分析中纳入那些随时间变化的协变量,即便这些协变量并非保证平行趋势假设成立的必要条件。举例来说,假设我们正在研究一项旨在减少心脏骤停的政策处理措施的效果,并且这项政策处理是在省级层面推广实施的。在这种研究情境下,研究人员可能就希望能控制一些随时间变化的协变量,例如年龄和吸烟状况。特别是对于年龄这个协变量,如果在分析中直接纳入政策处理前的年龄数值,可能会导致与我们直觉相悖的结果。这是因为,我们可能就无法捕捉到随着时间推移,年龄增长对个人发生心脏骤停概率的动态影响。另外,值得注意的是,许多实证研究使用的数据集是重复横截面数据,而非面板数据。这类数据通常缺乏个体在政策处理前的相关信息,使得使用政策处理前协变量值变得不可行。
Caetano 和 Callaway (2024)进一步指出,在处理时间安排不复杂的情况下,为了通过传统的双向固定效应(TWFE)方法获得无偏的平均处理效应(ATT)估计,研究人员需要额外引入一些特定的假设(具体假设细节请参阅Caetano & Callaway (2024) 第11-12页)。如果缺少这些附加假设,当处理效应设计变得复杂,且存在异质性处理效应时,TWFE方法的偏差会进一步加剧。这种偏差主要源于两个核心问题:负权重问题和禁止比较问题(Goodman-Bacon, 2021)。
为了有效应对上述问题,Callaway 和 Sant’Anna (2021)创新性地提出了一种半参数估计量,即协变量子集双重差分(CS-DID)估计量。CS-DID方法能够在不进行无效比较的情况下,有效估计平均处理效应(ATT)。CS-DID估计ATT的过程主要分为两个步骤:第一步,研究人员会将数据集分解为多个“2x2比较”的分析单元。每个单元包含一个接受政策处理的组别,以及一个未接受政策处理(或尚未接受政策处理)的组别,形成一个类似于传统双重差分分析的最小单元。第二步,方法会对每个“2x2比较”单元中估计得到的ATT(记为 ATT(g, t) )进行加权平均,最终得到整体的平均处理效应(ATT)估计值。
在这篇论文中,我们深入探讨了DiD研究领域中一个隐含但未被明确讨论的假设,我们称之为 “共同因果协变量”(Common Causal Covariates,简称CCC)假设。具体来说,本文系统地阐述了三种类型的CCC假设,分别是:状态变异CCC、时间变异CCC 以及双向CCC 假设。我们明确指出,这些CCC假设对于传统和现代DiD 方法能否获得无偏的ATT估计至关重要,是不可或缺的。为了验证我们的理论,我们使用了来自美国疾病控制与预防中心(CDC)的真实数据,展示了在某些实际情况下,CCC假设似乎确实会被违反。进一步地,通过严谨的理论证明和细致的蒙特卡罗模拟研究,本文论证了当CCC 假设被违反时,传统的TWFE 和 CS-DID 估计量可能会产生偏差。
为了解决这一潜在问题,我们创新性地提出了一种新的估计方法——交集双重差分(DID-INT)估计量。即使在CCC假设被违反的情况下,DID-INT 估计量仍然能够提供无偏的ATT 估计,并且能够灵活地应用于处理复杂的、处理时间安排错综复杂的场景。
本文的研究成果为DiD研究领域带来了一体两面的启示。从负面角度来看,本文的研究揭示了如果双向CCC 假设不成立,那么目前常用的估计方法可能会产生有偏差的结果,这无疑给研究者敲响了警钟。但从积极角度而言,我们的研究也表明,通过对这些违反情况进行适当的校正和调整,我们仍然可以获得无偏的处理效应估计。我们通过初步的蒙特卡罗实验结果发现,双向CCC 假设如果被严重违反,往往会在平行趋势图中有所体现。在实证研究中,许多研究人员在观察到平行趋势图“看起来不平行”时,通常会选择放弃当前的研究方向。或者,即使他们尝试在协变量条件下检验条件性平行趋势(但仍然隐含地假设双向CCC 成立),一旦发现趋势仍然不平行,他们也可能会选择放弃。
本文提出的DID-INT估计量只需要满足协变量条件下的平行趋势假设(而不需要强制双向CCC 假设成立)。通过采用协变量的灵活形式对结果变量进行残差化处理,DID-INT 方法能够有效呈现出平行趋势。然而,如果研究人员使用了不够灵活且模型设定错误的协变量模型,原本可能存在的平行趋势就无法被有效展现。 图1 展示了蒙特卡罗实验中的一个典型案例,该案例的数据来自一个双向CCC假设被违反的数据生成过程(DGP)。左图展示的是未进行任何条件控制的原始趋势,趋势线明显不平行。而右图则展示了在正确地控制了协变量之后得到的残差趋势,这些趋势线看起来就更接近于平行,更符合平行趋势假设的要求。这种方法显著拓宽了研究人员能够在实证分析中找到平行趋势的应用范围。本文的研究重点是当CCC 假设成立或被违反时,如何获得对ATT 的点估计。对于当平行趋势假设本身也被违反时,如何对ATT 进行部分识别的策略,本文暂不进行深入探讨,感兴趣的读者可以参考 Callaway (2023) 的相关研究。
建议阅读全文:
Sunny Karim and Matthew D. Webb, 2024, Good Controls Gone Bad: Difference-in-Differences with Covariates.
*群友可在社群下载该文PDF。关于多期DID或交叠DID: 1.DID相关前沿问题“政策交错执行+堆叠DID+事件研究”, 附完整slides,2.交错(渐进)DID中, 用TWFE估计处理效应的问题, 及Bacon分解识别估计偏误,3.典范! 这篇AER在一图表里用了所有DID最新进展方法, 审稿人直接服了!4.最新Sun和Abraham(2020)和TWFE估计多期或交错DID并绘图展示结果!详细解读code!5.多期DID或渐进DID或交叠DID, 最新Stata执行命令整理如下供大家学习,6.多期DID前沿方法大讨论, e.g., 进入-退出型DID, 异质性和动态性处理效应DID, 基期选择问题等,7.交叠DID中平行趋势检验, 事件研究图绘制, 安慰剂检验的保姆级程序指南!8.欣慰! 营养午餐计划终于登上TOP5! 交叠DID+异质性稳健DID!9.用事件研究法开展政策评估的过程, 手把手教学文章!10.从双重差分法到事件研究法, 双重差分滥用与需要注意的问题,11.系统梳理DID最新进展: 从多期DID的潜在问题到当前主流解决方法和代码! 12.标准DID中的平行趋势检验,动态效应, 安慰剂检验, 预期效应教程,13.DID从经典到前沿方法的保姆级教程, 释放最完整数据和代码!控制变量问题,1.什么时候应该使用回归分析?控制变量意味着什么?2.如何选择正确的因变量(控制变量),让你的计量模型不再肮脏,3.调节变量, 中介变量和控制变量啥区别与联系? 4.控制、调节和中介变量,系说,5.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?6.被解释变量比解释变量的层级更高的模型设定合理么?7.审稿: 协变量何时重要? 哪个重要, 有多重要?8.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系,9.因果推断专题:6.再谈混淆变量,10.什么时候需要标准化回归模型中的变量?11.因果推断专题:1.混淆变量,12.虚拟变量回归模型是什么? 政策评估的前件,13.11种与机器学习相关的多元变量分析方法汇总,14.回归中各变量的数值相差过大有事, 又有什么问题?15.哦, 不, 回归符号反了, 我们该怎么办?16.回归系数与预期相反时, 我们能够采取的方法和思路有哪些?17.显著不显著的后背是什么, 非(半)参估计里解决内生性,18.在什么情况下多增加一个自变量后, 回归的R方会变小呢?19.控制变量选择问题: 如何鉴别好或不好的控制变量?附上14篇相关文章!20.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!21.如何选择合适的工具变量, 基于既有文献的总结和解释!22.如何选择合适的工具变量, 基于既有文献的总结和解释!23.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!24.社会网络计量经济学是什么?测度社会关系网中的同伴效应!25.社会网络分析最新文献和软件学习手册,26.添加一个新变量能使以前不显著的变量变得显著了?27.加入其他控制变量后, 估计系数的符号相反了?28.估计工具变量回归时, 是否必须将所有外生变量用作工具变量?29.实证分析观测数据的10条检查清单, 消除实证分析中许多潜在的虚假结果,30.可以在面板回归分析中使用时间序列解释变量或被解释变量吗?31.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?32.你确定找到一个好的工具变量了吗? 这将是一篇最值得你看的文章!8年,计量经济圈近2500篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 | 内部数据计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验