2023.06.01

【抄訳】James Heckman (1990) Varieties of Selection Bias

次の論文が Imbens and Angrist (1994) の第２章で引用されていた．

James Heckman (1990) Varieties of Selection Bias The American Economic Review, 80(2) Papers and Proceedings of the Hundred and Second Annual Meeting of the American Economic Association (May, 1990), p 313-318.

労働経済学における労働組合と賃金の影響における選択バイアスの問題を解決するための模型 (selection models / selection bias model) のノンパラメトリック・セミパラメトリック化の様子をレビューしている．この模型は経済学で普遍的に見られる標本選択修正模型 (sample-selection-correction models) の１つと見れる．

概要

この論文では，計量経済学における選択バイアスの問題「労働組合が賃金格差にどのような影響を与えるか？」を考える．誰が労働組合に参加するかが完全にランダムではない，という問題を「自己選択バイアス (self-selection bias) 」といい，歴史的に労働経済学の分野で考えられてきて，H. Gregg Lewis (1986) が一つのランドマークである．

次の問題を考えたい．1) 経済学的に興味がある母数はなにか？ 2) どのような条件の下でその母数は識別可能か？ 3) パラメトリックな手法がどのようにその母数識別を助けるか？ 4) 労働組合の賃金格差への影響を評価するのにどの手法が良いとかいう証拠があるか？

Lewisは種々の研究で多様な手法が見られることを批判していた．特にその中で，分布の仮定が間違っているものも見られた．これは，3) のノンパラメトリックな手法への転換が現在進んでいる理由の１つになっている．

この「自己成就性」の問題を，「同時性」と言うようだ．説明変数と被説明変数は互いに影響を与えたっている状況をいい，これは内生性を引き起こす十分条件の例である．

第一の問題：何の母数に興味があるか？

個人を表す添字 $i$ を省略して，選択的回帰模型 (a switching regressions model) を考える．労働組合の賃金を $Y_1$ として

$Y_1=X_1\beta_1+U_1,\qquad E[U_1]=0,$

とし， $Y_0$ を労働組合に属さない人の賃金として

$Y_0=X_0\beta_0+U_0,\qquad E[U_0]=0,$

という線型模型を考える．更に，自己選択バイアスをモデルに含めよう．交絡要因を $Z$ として，変数

$I=Z\gamma+V,\qquad E[V]=0,$

に関する線型条件 $D=1_{\{I\ge0\}}$ で割当関数が決まるとしよう．

観測される賃金 $Y$ は

$Y=6Y_1D+Y_0(1-D)=(X_1\beta_1)D+(X_0\beta_0)(1-D)+DU_1+(1-D)U_0,$

としよう．「労働組合に属することで賃金が上がる」という選択ルール $I=Y_1-Y_0$ を考えるのがRoyのモデル（線型な場合）である．Lung Fei Lee (1978) ではより複雑なルールが考えられている．誤差 $(U_1,U_0,V)$ は回帰子 $(X_1,X_0,Z)$ と独立で多変量正規であることが仮定されることが多いようである．

最も一般的には切片項 $\alpha_0,\alpha_1$ を除いて $\beta_1=\beta_0=:\beta$ かつ $X_1=X_0$ が成り立つ，とする模型である．すると

$Y=\alpha_0+D(\alpha_1-\alpha_0)+X\beta+(1-D)U_0+DU_1,$

と表せる．ここで，多くの研究は， $D(\alpha_1-\alpha_0)$ と $U_0+D(U_1-U_0)$ との依存関係を調べることに移る．しかし，本当に重要なパラメータは何であろうか？多くの研究ではwell-definedではないし，研究に依って違う定義を採用する．悪い例だと同一の研究内で一貫性が失われる．

なるほど！経済学のモデリングの問題では，労働組合と賃金の関係を大きくモデリングしていくうちに，本来の「因果効果の評価」という目標を見失いがちで，「興味のあるパラメータ」を特定することも一つの難題なのか！

この点について，多くの経済学者は，平均処置効果が最も大事だということに異論は無いだろう．では具体的には「どの」平均か？この点については２つほど示唆がある．

１つ目が実験処置平均 (experimental treatment average) である．ランダムにある労働者を労働組合に参加させたらどうなるか？この母数は，先程の記法では，切片項（唯一違う回帰係数）の差

$\alpha_1-\alpha_0,$

となる．より一般には，:

$\widetilde{X}_1\beta_1-\widetilde{X}_0\beta_0,\qquad \widetilde{X}_i:=E[X_i|D=1],$

となる．

たぶん Angrist and Imbens (1991) Sources of Identifying Information in Evaluation Models の $\alpha$ ．

しかしこの母数は，必ずしも真に興味のある経済学的な質問に答えない．同様に，労働組合に属している者への恩恵も知りたいならば，

$E[Y_1-Y_0|D=1,x,z]=(\alpha_1-\alpha_0)+E[U_1-U_0|D=1,z],$

を考える必要がある．これは，共変量 $(X,Z)=(x,z)$ を持った個人を，労働組合に参加させた場合の賃金の上昇量である．これを Lewis p. 11 は賃金ギャップ (wage gap) と呼んだ（が定義は論文内で一貫していない）．

仮に $E[U_1-U_0|D=1,z]=0$ ならば，２つの母数は等しく， $\alpha_1-\alpha_0$ に対するIV-推定量は一致性を持つ ( James Heckman and Richard Robb 1985, Gregg Duncan and Duane Leigh 1985, Christopher Robinson 1989 ) ．

以上，２つ（細かく３つ）の母数を峻別することは労働組合の賃金への影響を評価するに当たって肝要である．にも拘らず，これらの母数はしばしば混同される．Lewisが自己選択バイアスの問題を解決するのに計量経済学の手法は非力であるという悲観的な結論に至ったのは，主に彼が上述の２つの母数を混同してしまったからである．

２．何が識別可能か？

近年の計量経済学の進展は，経済模型のノンパラメトリック・セミパラメトリックな推定の集中している．この過程において，識別定理が必然的に最初のステップとなる．そして，関数形の仮定を任意に導入することによってのみ識別可能な関心のある母数とノンパラメトリックに識別された関心のある母数とを分離することに役に立つ．

Recent advances in econometrics have focused attention on nonparametric and semiparametric estimation of economic models. Identification theorems are necessary first step in this process, and provide useful discipline in separating out parameters of interest that can only be identified by invoking arbitrary functional form assumptions from those that are nonparametrically identified.

例えば，線型回帰模型は，回帰関数を線型に限っているから識別可能になっている．一般形だとどうするかは別の識別問題である．このような**関数形の制約を必要としないのに識別可能なモデルを「ノンパラメトリックモデル」**と呼びがちである．関数空間の中で線型部分空間を作らない，という意味だろうか．

この章では，ある種の Roy-Lee モデルがノンパラメトリックに識別可能であることを示す．

３．選択モデルにおけるセミパラメトリック推定の最先端

識別は推論に向けた最初のステップである．ノンパラメトリックモデルの母数の一致推定へ向けた途は（選択模型においては）1990年前後から始まった．

Identification is only a necessary first step toward estimation. Important progress on the consistent nonparametric estimation of selection models has been made by Stephen Cosslett (1990), Ronald Gallant and Douglas Nychka (1987), Hidehiko Ichimura and Lee (1990), Don Andrews (1989), Whitney Newey (1988), and James Powell (1989).

４．より単純な手法が結局ロバストになる

第２章で述べたように，もし $E[U_1-U_0|D=1,z,x_c]=0$ ならば，２つの母数は等しく，IV推定量は一致性を持つ．特に後者の賃金ギャップの推定の文脈でも，より複雑な標本選択修正模型 (sample-selection-correction models) でもそうであるように，IV推定量が実験処置平均と同じ近似特性をもつという意味でうまくいくという証拠が積み上がりつつある．しかし，処置変数 $D$ が内生的であるという確固たる証拠もある．Duncan-Leigh and Robinsonを見よ．

「内生的である」は「誤差と相関を持つ説明変数である」というのが直接的な定義であるが，「左辺に登場すべきだが登場していない変数」というのがより数学的な定義，本質的な問題なのではないか？なお，この文脈で方程式は３本あるので，「内生的」の定義が何を指すか，いまの僕には解っていない．

つまり，一致性は持っているが，内生性があるのである．この結果は， $U_1-U_0$ のある（計量経済学者が）未観測の成分が $D$ の内生性に寄与しているというのは，無視できる程度でしかないことを示している．いくつかの経済模型もこの結果に合致する．組合に参加するかどうか決定するタイミングで $U_1-U_0$ に関する不確実性がある（その情報は見えていないので独立になっている）からではないか，というのがもっともらしい説明である．賃金意外の理由での参加動機（身内贔屓，差別など）もまたもう一つの理由だろう（これもRobinson参照）．これはつまり $D$ の内生性は賃金 $Y$ とは関係がない，ということである．最も一般的な場合，これが計量経済学的に最も難しい部分であるが，は実りのある議論にならないように思える．

【全訳】Imbens and Angrist (1994) Identification and Estimation of Local Average Treatment Effects

【抄訳】Le Cam (1953) On some asymptotic properties of maximum likelihood estimates and related Bayes’ estimates

あの

数学科出身の統計家志望．

【抄訳】James Heckman (1990) Varieties of Selection Bias

概要

第一の問題：何の母数に興味があるか？

２．何が識別可能か？

３．選択モデルにおけるセミパラメトリック推定の最先端

４．より単純な手法が結局ロバストになる

あの

関連記事

親族構造の生成

「数学の人類学」の始まり

コメント

カテゴリー

あの

りん

107r57

【抄訳】Le Cam (1953) On some asymptotic properties of maximum likelihood estimates and related Bayes’ estimates

【抄訳】James Heckman (1990) Varieties of Selection Bias

【全訳】Imbens and Angrist (1994) Identification and Estimation of Local Average Treatment Effects

【要約】Yates (1934) Contingency Tables Involving Small Numberts and the χ^2 Test【要約】

Giné and Nickl (2021) 第2.1節定義，可分性，0-1法則，集中性．

ロゴの公募について

重相関係数と決定係数について

【要約】Olkin and Pratt (1958) Unbiased Estimation of Certain Correlation Coefficients

【抄訳】James Heckman (1990) Varieties of Selection Bias

概要

第一の問題：何の母数に興味があるか？

２．何が識別可能か？

３．選択モデルにおけるセミパラメトリック推定の最先端

４．より単純な手法が結局ロバストになる

あの

関連記事

親族構造の生成

「数学の人類学」の始まり

コメント

カテゴリー

あの

りん

107r57

【抄訳】Le Cam (1953) On some asymptotic properties of maximum likelihood estimates and related Bayes’ estimates

【抄訳】James Heckman (1990) Varieties of Selection Bias

【全訳】Imbens and Angrist (1994) Identification and Estimation of Local Average Treatment Effects

【要約】Yates (1934) Contingency Tables Involving Small Numberts and the χ^2 Test【要約】

Giné and Nickl (2021) 第2.1節 定義，可分性，0-1法則，集中性．

ロゴの公募について

重相関係数と決定係数について

【要約】Olkin and Pratt (1958) Unbiased Estimation of Certain Correlation Coefficients

Giné and Nickl (2021) 第2.1節定義，可分性，0-1法則，集中性．