2023.05.30
2023.06.02

【全訳】Imbens and Angrist (1994) Identification and Estimation of Local Average Treatment Effects

次の論文を読みました．

Guido W. Imbens and Joshua D. Angrist (1994) Identification and Estimation of Local Average Treatment Effects. Econometrica, 62(2): 467-475.

観察研究で平均処置効果を推定する際には，識別可能性を確保するために操作変数法が使われる．操作変数を変更することによる割当関数の変化が一方向的ならば，「（操作変数の変更により）割当が変わった」という事象で条件付けた（条件付き）平均処置効果が識別可能になる．部分集団に限るために「局所的」という．

１．イントロダクション

処置にランダムに割り当てることと，処置群・対照群において同時に (concurrent) データを集めることは，治療効果の評価研究 (medical evaluation research) の規範である．一方で，社会的プログラムの評価 (social program evaluation) にランダムな割付を行うことは議論のある行為である．Lalonde (1986) などのパラメトリックなモデルへの批判から，経済学は観察研究による処置効果を，（分布などの仮定を置くことのない）ノンパラメトリックモデルを通じて識別する方面へ発展している．この一連の潮流の議論の焦点は，関心のある母集団の平均処置効果 (average treatment effects) または処置群への平均効果 (the average effect) の識別にある．しかしながら，これらの母数をノンパラメトリックモデルにおいて識別するために必要な条件は厳しいものであり，従って識別結果は脆弱になる（仮定が満たされているか極めて怪しいため．あるいは感度分析の結果を指している？）．例えば， Angrist and Imbens (1991) Sources of Identifying Information in Evaluation Models などの結果では，「少なくとも極限の実験において，処置群への割当確率が0となるような母集団の部分集団が存在する」ことを条件として課している（これは観察研究では極めて保証しにくい仮定である）．

この論文では，「処置を受ける確率が0になるような部分集団が存在する」という条件を置かなくとも，より緩い仮定だけで，多くのモデルや状況下で，ある種の平均処置効果が識別出来ることを示す．この母数を局所平均処置効果 (LATE) と呼ぶ．これが識別可能なモデルには，潜在指数模型 (latent index models) や， Joshua D. Angrist (1990) Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records や Joshua D. Angrist and Alan B. Krueger (1991) Does Compulsory School Attendance Affect Schooling and Earnings? で研究されたような自然実験を基にした評価模型などである．LATE は，ある排除制約を満たす外生的説明変数を変えることで処置の如何が変わるような個人に対する平均処置効果である．

２．因果効果の識別

本論文の枠組みは，本質的に Rubin (1974, 1990), Heckman (1990) に従うもので， Angrist and Imbens (1991) Sources of Identifying Information in Evaluation Models でも詳細に議論されている．その枠組みというのは，特定の回帰模型の母数の言葉で因果を捉えるのではなく，潜在反応 (potential outcomes) または反事実 (counterfactuals) の言葉で因果を捉える． $D_i:\Omega\to2$ を，個人 $i\in[n]$ が処置を受けるかどうかが定める２値確率変数とし，個人 $i\in[n]$ が処置を受けたかどうかに依存して変わる反応を，関数 $Y_i(0),Y_i(1):\Omega\to\R$ を用いて，複合

$Y_i(D_i)=D_iY_i(1)+(1-D_i)Y_i(0),$

で表す．ただし，この合成 $Y_i(D_i):\Omega\to\R$ も $Y_i$ と混用することもある．観測は $(D_i,Y_i)\;(i=1,2,\cdots,n)$ である．値 $Y_i(1)-Y_i(0)$ を因果効果 (causal effect) または個人処置効果 (individual treatment effect) という．が，この値は決して観測されないことに注意．

医療処置の評価の際に，どのようにして識別問題が克服されているかというと，これがランダム化比較試験である．このとき，各 $Y_i(j)$ は $D_i$ と独立であるため，

$E[Y_i(j)|D_i=0]=E[Y_i(j)]=E[Y_i(j)|D_i=1],\qquad j=0,1.$

が成り立つ．このとき，平均処置効果 (the average treatment effect) $E[Y_i(1)-Y_i(0)]$ に対する推定量

$\frac{\sum_{i\in[n]}D_iY_i}{\sum_{i\in[n]}D_i}-\frac{\sum_{i\in[n]}(1-D_i)Y_i}{\sum_{i\in[n]}(1-D_i)}$

は不偏になる．これは標本平均が母平均の不偏推定量だからである．

一方で，社会的プログラムの評価の際は，識別可能性を確保するために，操作変数法が用いられてきた． $Z_i$ が操作変数であるとは， $Y_i(0), Y_i(1)$ とそれぞれ独立であり， $D_i$ と相関を持つ変数をいう．

より正式に定義しよう． $\mathcal{Z}:=\mathrm{Im}(Z_i)$ で $Z_i$ の値域を表すとする．各 $z\in\mathcal{Z}$ に対して， $Z=z$ の下での割付変数を $D_i(z):\Omega\to2$ で表す．この記法は Gary Chamberlain の提案だという．この下で，観測は $(Y_i,D_i,Z_i)$ であるとする．ただし，このときの $D_i$ とは混合 $D_i(Z_i)$ のことである．この下で，次の条件が成り立つとき， $Z$ を操作変数という：

【条件１：操作の存在 (existence of instruments) 】 $Z$ を次の2条件と満たす確率変数とする． (i) 任意の $w\in\mathcal{Z}$ について， $(Y_i(0),Y_i(1),D_i(w))$ は $Z_i$ と独立． (ii) $P(w):=E[D_i|Z_i=w]$ は定数でない．

条件 (ii) は検証可能である．一方で条件 (i) は回帰模型の除外制約に似て，検証することは可能でなく，ケースバイケースで考慮する必要がある．

経済的プログラムの評価において， Heckman and Robb (1985) や Heckman and Hotz (1989) など，線型な潜在指数模型はよく用いられる．これらの模型で，参加・非参加の決断は次の関数 $D_i^*$ に課された線型条件に関する指示関数 $D_i=1_{\{D_i^*>0\}}$ 決定されるとする：

$D_i^*=\gamma_0+Z_i\gamma_1+\nu_i,$

そして，観測される反応 $Y_i=Y_i(D_i)$ は次のように決定されるとする：

$Y_i=\beta_0+D_i\beta_1+\epsilon_i.$

この模型では $Z_i$ が $\epsilon_i,\nu_i$ のいずれとも独立で， $\nu_i$ が自明でないならば，操作変数になる．この枠組みの利点は，関数形や分布の仮定を回避することを可能にしてくれることにある．

Chamberlain (1986), Heckman (1990), Angrist and Imbens (1991) Sources of Identifying Information in Evaluation Models で，いずれも条件１だけではどんな平均処置効果も識別可能にするには足りないことが判っている．実際，仮にある $z,w\in\mathcal{Z}$ について， $P(z)>P(w)$ とすると，

$E[Y_i|Z_i=z]-E[Y_i|Z_i=w]=P[D_i(z)-D_i(w)=1]E[Y_i(1)-Y_i(0)|D_i(z)-D_i(w)=1]-P[D_i(z)-D_i(w)=-1]E[Y_i(1)-Y_i(0)|D_i(z)-D_i(w)=-1].$

が成り立つが，これが $=0$ を満たし， $E[Y_i|Z_i=z]-E[Y_i|Z_i=w]=0$ が成り立ってしまう状況はあり得る．すなわち，操作変数を変えることにより，割当が変わる度合いと，平均処置効果が変わる度合いとが絶妙で，互いに打ち消し合ってしまうことがあり得る．このとき， $\{E[Y_i|Z_i=w]\}_{w\in\mathcal{Z}}$ は識別可能でない．よってそれらの如何なる差も識別可能でない．

仮に，ある $\alpha\in\R$ が存在して任意の $i\in[n]$ について $\alpha:=Y_i(1)-Y_i(0)$ が成り立つ (constant treatment effect) ならば，このような問題は起こらない．実際，

$E[Y_i|Z_i=z]-E[Y_i|Z_i=w]=\alpha (P(z)-P(w)).$

となり， $P(z)>P(w)$ の仮定から $\ne0$ が従う．よって $\alpha$ は識別可能である．また，ある $w\in\mathrm{Im}(Z_i)$ が存在して $P(w)=0$ が成り立つ場合も，このような問題は起こらない．このとき，上の等式は

$E[Y_i|Z_i=z]-E[Y_i|Z_i=w]=P(z)E[Y_i(1)-Y_i(0)|D_i(z)=1]$

となる．これを用いれば，処置群の平均処置効果 $E[Y_i(1)-Y_i(0)|D_i(z)=1]$ が識別可能である．このような種の仮定は Heckman (1990) や Angrist and Imbens (1991) Sources of Identifying Information in Evaluation Models で調べられている．これに加えて，第３の条件として，本質的な問題の原因である「操作変数による処置の変化は一方向的」という形の条件を提案する．

【条件２：単調性 (monotonicity)】任意の $z,w\in\mathrm{Im}(Z_i)$ について， $D_-(z)\ge D_-(w)$ または $D_-(z)\le D_-(w)$ が成り立つ．

つまり， $Z=w$ の場合よりも $Z=z$ の場合の方が，平均して参加確率が高いならば，各個人のレベルで見た場合に， $Z=w$ の場合参加するが $Z=z$ で参加しなくなる人が居ないことを課している条件である．これは条件１の (i) 同様，検証可能ではないため，ケースバイケースでその妥当性を議論する必要がある．なお，先程議論した線型潜在指数模型では，条件２は満たされている．

【定理１】条件１と２が成り立つとする．このとき，任意の $P(z)\ne P(w)$ を満たす $z,w\in\mathrm{Im}(Z_i)$ について，

$\alpha_{z,w}:=E[Y_i(1)-Y_i(0)|D_i(z)\ne D_i(w)]$

という形の処置効果は，観測 $\{(Y_i,D_i,Z_i)\}_{i\in[n]}$ から識別可能である．

【証明】任意の $z,w\in\mathrm{Im}(Z_i)$ を取る．仮定 $P(z)\ne P(w)$ と条件２を併せて， $D_i(z)\ge D_i(w)$ としても一般性は失われない．このとき， $P[D_i(z)-D_i(w)=-1]=0$ であることと，

$P[D_i(z)-D_i(w)=1]=E[D_i|Z=z]-E[D_i|Z=w]=P(z)-P(w),$

であることに注意すれば，

$E[Y_i(1)-Y_i(0)|D_i(z)-D_i(w)=1]=\frac{E[Y_i|Z_i=z]-E[Y_i|Z_i=w]}{P(z)-P(w)}.$

右辺は $(Y_i,D_i,Z_i)$ の積率の関数である．［証明終］

局所平均処置効果は，パネルデータについての，個人効果を持つ線型回帰模型の回帰係数に類比的である．固定効果を持つ模型について，データは，２値説明変数の，観察期間に渡って２値変数が変化した個人への影響のみについてしか情報を持たない．定理１は，操作変数が変化したことにより，参加・不参加の変化が誘導される部分集団についてのみの平均が，識別可能であるということを言っている．

３．操作変数の推定

定理１の証明を見れば，平均処置効果は， $Z_i=w,z$ の2点における $Y_i,D_i$ の条件付き平均の値の比である．これは $Z$ がそもそも2値の場合の，操作変数法が推定する推定量に他ならない．そこで，操作変数 $Z$ が多値の場合への一般化を考えると，まず $\mathrm{Cov}[Y]$ とある関数 $g(Z)$ との比，または $\mathrm{Cov}[D]$ とある関数 $g(Z)$ との比を推定する，ということが考えられる． $Z$ が実数値のとき， $g=\mathrm{id}_\R$ と取れば，標準的な操作変数推定量 (IV estimator) を得る． $Z$ がベクトル値のとき， $g$ はしばしば $E[D|Z]$ の推定量に取る．操作変数母数 (IV estimand)

$\frac{\mathrm{Cov}[Y,g(Z)]}{\mathrm{Cov}[D,g(Z)]}$

がLATEの重み付き平均であることを保証するためには，次の条件が必要である：

【条件３】関数 $g:\mathcal{Z}\to\R$ は次を満たす：

(i) 任意の $z,w\in\mathcal{Z}$ に対して $P[z]\le E[D|Z=w]$ ならば $g(z)\le g(w)$ であるか，または，任意の $z,w\in\mathcal{Z}$ に対して $E[D|Z=z]\le E[D|Z=w]$ ならば $g(z)\ge g(w)$ である．

(ii) $\mathrm{Cov}[D,g(Z)]\ne0$ ．

条件３が満たされる場合に，次の３つの重要なケースがある．まずは $Z$ が2値で， $P(z)=E[D|Z=z]$ が $g$ と同じように増加・減少する場合である．続いて， $g(z)=E[D_i|Z_i=z]=P(z)$ と取る場合．線型潜在指数模型もこの場合に当てはまる．最後に， $Z$ は実数値（ $\mathcal{Z}\subset\R$ ）で， $g,P$ がいずれも単調である場合である．

次の定理が，IV推定量とLATEとの関係を与える．滑らかさの問題を回避するために，離散の場合に限定して提示する．

【定理２】条件１，２，３が成り立ち， $Z$ は離散値 $\mathcal{Z}=\{z_0,\cdots,z_K\}$ で， $l<m\Rightarrow P(z_l)\le P(z_m)$ が成り立つとする．このとき， $\mathrm{Cov}[D,g(Z)]\ne0$ で， $D$ の $Y$ への影響に対する $g(Z)$ を操作変数としたIV推定量は

$\alpha_g^{\mathrm{IV}}=\frac{\mathrm{Cov}[Y,g(Z)]}{\mathrm{Cov}[D,g(Z)]}=\sum_{k=1}^K\lambda_k\alpha_{z_k,z_{k-1}},$

を満たす．ただし，

$\lambda_k=\frac{(P(z_k)-P(z_{k-1}))\sum_{l=k}^K\pi_l(g(z_l)-E[g(Z)])}{\sum_{m=1}^K(P(z_m)-P(z_{m-1}))\sum_{l=m}^K\pi_l(g(z_l)-E[g(Z)])}$

で， $\pi_k:=P[Z=z_k]$ とした．各 $\lambda_k$ は非負で和が $1$ であることに注意．

続いて，この節では IV推定量の漸近分布を分析する． $g$ の関数形は既知とする． $g$ に未知の母数が含まれ， $\alpha_g^{\mathrm{IV}}$ と同時にこの母数も推定する場合の漸近分布は付録参照．この場合は，第一段階を $E[D|Z]$ の推定として，二段階での推定を行う．

【定理３】 $(Y_i,D_i,Z_i)_{i=1}^N$ を独立同分布， $g:\mathcal{Z}\to\R$ は $\mathrm{Cov}[D,g(Z)]\ne0$ を満たす関数，

$\widehat{\alpha}<em>g^{\mathrm{IV}}=\frac{\widehat{\mathrm{Cov}}[Y,g(Z)]}{\widehat{\mathrm{Cov}}[D,g(Z)]}=\frac{\sum</em>{i=1}^Ng(Z_i)(Y_i-\overline{Y})}{\sum_{i=1}^Ng(Z_i)(D_i-\overline{D})},$

をIV推定量とし，出現した共分散はすべて有限確定であるとする．このとき， $\varepsilon:=Y-E[Y]-\alpha_g^{\mathrm{IV}}(D-E[D])$ として，

$\sqrt{N}\left(\widehat{\alpha}^{\mathrm{IV}}_g-\alpha^{\mathrm{IV}}_g\right)\overset{d}{\to}\mathrm{N}\left(0,\frac{E\left[\varepsilon^2(g(Z)-E[g(Z)])^2\right]}{\mathrm{Cov}^2[D,g(Z)]}\right).$

教科書的なIV変数推定の議論では，仮定 $E[\varepsilon^2|Z=z]=\sigma^2$ が置かれる．この場合，定理3の漸近分散は

$\frac{\sigma^2\mathrm{Var}[g(Z)]}{\mathrm{Cov}^2[D,g(Z)]}$

となる．

４．例

以下，３つの例を通じて，条件１，２，３の妥当性を議論する．これらの例では内生的な操作変数が得られるように社会的プログラムが用意される．このような評価は臨床試験でなされるような処置群と対照群とに直接ランダムに割り当てる方法と比較して，よく自然実験と呼ばれる．

【例１：徴兵抽選 (Draft Lottery) 】 Joshua D. Angrist (1990) Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records ではベトナム戦争での徴兵制度を用いて，退役軍人であることの収入への影響を調査した．操作変数が徴兵抽選番号となる．そして平均的な従軍する確率は抽選番号に従って下がっていく．条件１は抽選番号と潜在的な稼得能力は独立であることを要請するが，これは抽選番号が（標準的な意味で）操作変数であることに同値．抽選番号が，徴兵されやすいという経路以外で稼得能力と相関を持っていたら条件１を満たさなくなる．条件２は抽選番号の順に徴兵されたから，随分な制度で満たされていると言えるだろう (plausible) ．Angristの研究では $g$ は $P$ の推定量になっていたため，条件３は満たされる．この例において，定理１が意味するところは，もしより小さい抽選番号だったら従軍していただろう人で，より大きい抽選番号だったら従軍していたであろう男子の部分集団に対する処置効果が，識別可能であることを述べている．

つまりは，殆ど，徴兵抽選を受けた男子の全員と考えて良いということだろうが，これも慎重な議論を要しそうである．

【例２：スクリーニング (Administrative Screening)】ある社会的プログラムへの応募者は２人の役人にスクリーニングされるとしよう．公式的な基準は同一でも，この２人の許可確率は違うだろう．どちらの役人に許可されたかは反応には関係がないという仮定（条件１）は妥当に思える．またこの操作変数は2値なので，条件３も満たされる．条件２は問題である．ある役人Aが許可を下したであろう参加者の全員に役人Bは許可を下している必要がある．許可の基準が複雑である場合，この条件は成り立たないと思えるため，確かな操作変数は存在する（条件１）にも拘らず，定理１は使えない．この例は Geert Ridder による．

【例３：処置意思のランダム化 (Randomization of Intention to Treat) 】ランダム化試験において，操作変数 $Z$ を，処置群に割付られたかどうかを表す2値変数とする．実際の割当変数 $D$ と $Z$ は異なる場合があり，例えば個人が不服従を起こした場合などである．条件１は割当意思 $Z$ が反応と独立であれば満たされる．条件２は，対照群に割り当てられた場合に不服従を起こして処置を受けた人は，仮に処置群に割り当てられていたとしたら割り当て通りに処置を受けていたはずである，という仮定である．条件３は操作変数 $Z$ が２値であるために満たされる．定理１により識別される処置効果とは，割当 $Z$ の通りに服従する部分集団に対する処置効果である．この類似の例が Robins (1989) で議論されている．

例３の考え方から言えば，傾向スコアとは操作変数の一種であるのだろうか？

【要約】Yates (1934) Contingency Tables Involving Small Numberts and the χ^2 Test【要約】

【抄訳】James Heckman (1990) Varieties of Selection Bias

あの

数学科出身の統計家志望．

【全訳】Imbens and Angrist (1994) Identification and Estimation of Local Average Treatment Effects

１．イントロダクション

２．因果効果の識別

３．操作変数の推定

４．例

あの

関連記事

親族構造の生成

「数学の人類学」の始まり

コメント

カテゴリー

あの

りん

107r57

【抄訳】Le Cam (1953) On some asymptotic properties of maximum likelihood estimates and related Bayes’ estimates

【抄訳】James Heckman (1990) Varieties of Selection Bias

【全訳】Imbens and Angrist (1994) Identification and Estimation of Local Average Treatment Effects

【要約】Yates (1934) Contingency Tables Involving Small Numberts and the χ^2 Test【要約】

Giné and Nickl (2021) 第2.1節定義，可分性，0-1法則，集中性．

ロゴの公募について

重相関係数と決定係数について

【要約】Olkin and Pratt (1958) Unbiased Estimation of Certain Correlation Coefficients

【全訳】Imbens and Angrist (1994) Identification and Estimation of Local Average Treatment Effects

１．イントロダクション

２．因果効果の識別

３．操作変数の推定

４．例

あの

関連記事

親族構造の生成

「数学の人類学」の始まり

コメント

カテゴリー

あの

りん

107r57

【抄訳】Le Cam (1953) On some asymptotic properties of maximum likelihood estimates and related Bayes’ estimates

【抄訳】James Heckman (1990) Varieties of Selection Bias

【全訳】Imbens and Angrist (1994) Identification and Estimation of Local Average Treatment Effects

【要約】Yates (1934) Contingency Tables Involving Small Numberts and the χ^2 Test【要約】

Giné and Nickl (2021) 第2.1節 定義，可分性，0-1法則，集中性．

ロゴの公募について

重相関係数と決定係数について

【要約】Olkin and Pratt (1958) Unbiased Estimation of Certain Correlation Coefficients

Giné and Nickl (2021) 第2.1節定義，可分性，0-1法則，集中性．