次の論文を読みます.
Yates, F. (1934) Contingency Tables Involving Small Numberts and the \chi^2 Test. Supplement to the Journal of the Royal Statistical Society, 2(1): 217-235.
分割表の独立性検定における小標本問題に対して,独自の補正を付して -検定を行うことを提案した論文.
Introduction
分割表の独立性に対する検定のうちどれが適切か?という問題について,昨今多くの議論がなされてきた.各セルの数字が十分に大きいならば,Pearsonが1900年に導入した -検定に, Fisherが1922年に確立した自由度の補正を組み込む手法が適切(appropriate)であるということは,いまや殆ど共通了解だと言っていいだろう.Fisherの補正については,その必要性が理論の面からも応用の面からもたくさんの報告がなされており,いまや議論の余地はないと言える.他の検定手法については,いくつかのものが -検定と等価になるものがあることが知られている.
-検定はあくまで近次手法である.というのも,各セルの値は正規分布しており,ある制約条件を満たす,という仮定を満たす必要がある.この仮定が十分な精度で満たされるためには,各セルの値が十分に大きい必要がある.実践上は,どのセルの期待値も5以上であるときに「十分近次精度が良い」とみなすことが一般的である.
The accuracy of this approximation depends on the numbers in the various cells, and in practice it has been customary to regard as sufficiently accurate if no cell has an expectancy of less than 5.
与えられた周辺分布から,任意の観測値の確率は正確に決定できる.この精密標本分布によって, -検定の逸脱(この「逸脱」を表現する語に divergence を用いていることが興味深い)が検証出来る.通常 -検定が適用されるような場面で,セルの値が比較的小さくなると,不適切になることが検証出来るが,これは単純な修正によって克服出来る.
It was suggested to me by Professor Fisher that the probability of any observed set of values in a contingency table with given marginal totals can be exactly determined. The method will be explained in the next section. Armed with the exact distribution the divergence of the test in any special case can be tested. It will be shown that although the test as ordinarily applied becomes inaccurate even when moderately small numbers in the cells, a simple modification enables the range of usefulness to be considerably extended.
2×2分割表
次の分割表を考える.
A | not A | 合計 | |
---|---|---|---|
B | |||
not B | |||
合計 |
としても一般性は失われない.独立性の仮定の下,Bだろうとnot Bだろうと,Aが起こる確率 は変わらないとする.すなわち,Bとnot Bはそれぞれサイズ の二項分布 から独立に観測され,事象Aが起こった総数が という追加の制約条件を満たすとして,集合 上の標本分布を求める.
すなわち,結合密度
を持つ分布が,追加で制約条件
を満たすとしたときの条件付き分布を求める.詳細は省略すると,これは
が与える.
どう見ても簡単に計算に出来るので,正確検定を実行すれば良いだろうと,我々現代人は考える.論文では次のようにコメントされている:
The numerical distribution could be used to provide a direct test of significance, but even when the marginal totals are quite small the evaluation of is much more expeditious, and it is therefore of some interest to determine the limits within which may be safely employed.
周辺分布が定数であるという仮定の妥当性について
始め の値を所与としたが,これは,独立性の仮定の下では,まず 個の の観測をし,あとからこの 個の観測からランダム抽出してBに該当するかを決める,と考えても問題ないことから正当化される.
なお,周辺分布 はFisherの用語を使えば補助統計量である.
母集団のpが既知の場合のχ^2-検定
まず理想的な場合を考えて理論を概観する.分布 と とを比較してみると, -検定量が常に低めに値が出る.これは,前者が離散であり,後者が連続であるという違いに端を発する.そこで,各区間の代表点の取り方を変えると考えて,真の偏差より だけ小さい -値を対応させることを考える.例えば度数が になる確率は で近似し,度数が になる確率は で近似することとすると,驚くべき近似精度を持つことになる.こうして得る離散分布を で表し,連続補正 (correction for continuity) と呼べる.
しかし, ではまた話が違う. は対称な分布であるが, はそうではないからだ.しかし,前述の要因よりは弱い乖離しかうまない.
この問題を解決する統一的な補正法はないから(二項分布の歪度は に依存して様々に変わる),逆に言えば連続修正の有効性の証左にもなっている.
連続修正後の -検定について
以上で,任意の の分割表について,精密な確率と -確率と -の確率とが比較できる準備が揃った.
コメント