【抄訳】Le Cam (1953) On some asymptotic properties of maximum likelihood estimates and related Bayes’ estimates

確率統計学

現代的な漸近効率の下界を与える理論は,この論文

Le Cam, L. (1953). On some asymptotic properties of maximum likelihood estimates and related Bayes’ estimates. University of California Publications in Statistics, 1(11): 277–330.

から始まったと言われる.(Ibragimov and Khasminskii (1991) や Severini and Tripathi (2013)など)

この論文自体は54ページあり,最初に局所漸近正規性が定義された難解なものであるが,最初の3ページに歴史的な動機付けが簡潔にまとめられている.この部分があまりに壮麗で教育的であったので,和訳したものを紹介する.あと,この論文はなかなか手に入らない.

The purpose of the present paper is to give what are believed to be rigorous proofs of various asymptotic properties of several classes of estimates such as the maximum likelihood estimates, the Bayes’ estimates and others. It is believed that the presentation of the main results will gain in clarity if it is preceded by a brief outline of the history of the problems treated. This historical outline is given in the present introduction.

Le Cam (1953) On some asymptotic properties of maximum likelihood estimates and related Bayes’ estimates

Fisher, R. A. (1922) On the Mathematical Foundations of Theoretical Statistics, Fisher, R. A. (1925) Theory of Statistical Estimation 以来,最尤推定法が統計家の標準的ツールの一つとなっている.最尤法の原理は,従来のBayes法の代替として提案された.従来のBayes法は推定対象となる母数が確率変数で,その分布について何かしらの事前知識がある状態を,解析の前提として必要とする.そしてFisherは最尤法を提案するだけでなく,これが優れている理由を,いくつかの推定量としての性質を証明する形で付した.しかしながら,その十分な証明は付されていない.

最尤推定量を導出する際の計算は,一様事前分布を仮定した際のBayes推定量の導出と一致するので,最尤推定量もLaplaceとGaussによりすでに使われており,Gaussはさらに,最尤法と最小二乗法とによる推定量が漸近的に等しい分散を持つことを示したと言われることもある.

しかしこれは正しくないと言えるだろう,最尤法はLaplaceもGaussも使ったことのない,全く新しいものであると言うべきである.そもそもLaplaceとGaussは,2人とも統計的推測について研究していたとは言え,全く違う分野の研究をしていた.

Gaussは,例えば (1809) で,推定対象母数の事後分布を漸近的に最大化する推定量について研究している.一方でLaplaceは危険や損失を表す関数の最も実り多い定義について研究している. \theta を推定対象の真値, T を推定量で t をその実現値とすると, |\theta-t| が小さいほど,推定量の性質が良いと言えるだろう.この当然の見方について,数学書の中で初めて言及したのがLaplaceであり,「統計的推定」という行為を「なるべく正解に近づけるゲーム」と読み替えられた.Laplace (1820) は W(t,\theta)|t-\theta| の単調関数で t=\theta で零となる関数として定義し,これを最小化すべき対象とした.

Laplaceは損失関数 W の性質は数学的な議論からは導出できないことをはっきり自覚しており,とりわけ W(t,\theta)=|t-\theta| の場合について詳しく調べた.なお,危険関数とは,期待値

    \[R_T(\theta)=\mathcal{E}\{W(T,\theta)|\theta\}\]

として定義される.

このLaplaceの定義に従って,Gauss (1887) も損失関数と危険関数を研究している.彼は W(t,\theta)=(t-\theta)^2 の場合の方が計算は簡単になり,またよりエレガントな定式化がなされることに気づき,こちらの方を多用した.そしてこちらの損失関数が,その後の最小二乗法の理論の取り扱いの基礎となったのである.なお,これら損失と危険の概念は統計的文脈に再び取り上げられるようになっており,Wald (1950) では最重要概念に据えている.

つまり,LaplaceとGaussの,推定量の事後確率を(漸近的に)最大化しようとする試みは,完全に独立であるというわけではなく,それぞれの危険関数を最小化しようとする試みからきたものであるわけだ.Gaussが1821年2月に行った講演では,「事後分布を最大化するような推定量は,漸近的には最小自乗推定量に一致する」という定理を,Laplaceが証明したものとして紹介した.しかしながら,Laplaceは実際に証明したわけではないし,証明したと主張したという事実もない.ただし,Laplace (1820) は確かに,極めて強い仮定の下で,母数の事後分布は正規分布に漸近するという結果を証明している.この結果は1世紀の後に,Bernstein (1917) と von Mises (1931) が独立に再発見している.

最大事後確率推定量の問題と,そのリスク最小化との関係は,19世紀末と今世紀の初めに再び研究されるようになった.特に重要なのが Edgeworth (1908) On the Probable Errors of Frequency-Constants である.Edgeworthは次のような結果を証明したかったものと思われる:最大事後確率推定量の漸近事前分散は,他の凡ゆる推定量のそれよりも大きくない.彼が採用した証明方針のうち1つは,Laplaceの叙述に完全に沿っている.Edgeworthはこれに満足せず,Love教授の助けを借りてもう1つ証明を完成させた.それは推定量の分散の下界を用いた証明であり,この流れは Cramér (1946) A Contribution to the Theory of Statistical Estimation と Rao (1945) Information and the accuracy attainable in the estimation of statistical parameters によって深化された.Edgeworthは,この戦略で証明する際には推定対象にある種の制約が必要であることに気づいており,そのこともあってか,表現が不明瞭な部分がある.例えば,

. . . where \chi (like \psi) is a symmetrical function of the observations, having the properties of an average.

Edgeworth (1908) On the Probable Errors of Frequency-Constants, p. 662.

Edgeworthの論文は統計学者から注目されず,1922年までKarl Pearsonによるモーメント法が主流のままであった.そして1922年には Fisher, R. A. (1922) On the Mathematical Foundations of Theoretical Statistics にて,一致性と有効性の概念が導入された.ここでの一致性の概念は,実際上の推定問題には通用しないものであったが, Fisher, R. A. (1925) Theory of Statistical Estimation では現在の定義(観測の数を無限に大きくする極限 n\to\infty において,推定量が真値に確率収束する)が与えられた.

有効性の概念は「内的正確さ(intrinsic accuracy)」と「標本に含まれる情報量 (information contained in a sample)」との,2つの未定義概念の上に定義された.が,どのような推定量が有効であるかははっきりしている:漸近正規性を持ち,その分散が下界を達成する推定量,である.

The criterion of efficiency is satisfied by those statistics which, when derived from large samples, tend to a normal distribution with the least possible standard deviation.

Fisher, R. A. (1922) On the Mathematical Foundations of Theoretical Statistics p. 310.

続いて,有効推定量について次のように論じた.

We shall now prove that when an efficient statistic as defined above exists, one may be found by the method of maximum likelihood.

Fisher, R. A. (1925) Theory of Statistical Estimation p. 710.

そしてその後証明が続き,例が続くが,有効推定量の存在についてはその後触れられない.

また,Fisherのステートメントには,どのような確率分布族に対して成立するのかの制限がなかったが,証明では2階までの微分を含んでいるので,何らかの仮定が必要であることは明らかである.だが,Edgeworthの議論と違う点としては,どのような推定量のクラスの中で漸近分散が最小であるかは「漸近正規性をもつ推定量の中で」というはっきりとした制約が置かれている.

また,最尤推定量の一致性について証明は与えられていない.が,一応有効性の証明から直ちに従うことではある.

Hotelling (1931) は最尤推定量の一致性を漸近正規性の証明を与え, Doob (1934) によって精緻化・一般化された.有効性の証明はしばらく放っておかれたが,最終的に D. Dugué が1936年から1937年にかけて発表したノートに含まれる.この証明は良いアイデアが複数見られるが,厳密ではなく,その誤りは明らかである. Wilks (1938) Shortest Average Confidence Intervals from Large Samples はDuguéの手法を用いて,全く違うテーマの論文を発表したが,ある多少の制約がある推定量のクラスの中での有効性を示している.1940年前後に Jerzy Neyman は最小 \chi^2-推定量の研究を始め,正則最良漸近正規推定量 (regular best asymptotically normal estimates)の概念を定義した.Neyman (1949) は1945年のBerkeley Symposiumで発表された結果であるが,この正則な漸近正規推定量のクラスの中での最尤推定量の有効性を示した.この結果の更なる精緻化が Gurland (1950) や Barankin and Gurland (1950) で与えられている.また Neyman and Scott (1948) Consistent Estimates Based on Partially Consistent Observations では Wilksの結果を,未知母数の数が観測と共に無限大に発散するような状況設定の下にも拡張した.同時に,この設定の下では,最尤推定量は漸近正規性を持つが,Fisherの意味での有効性を持たないことを示した.なお,最尤推定量は一致性を必ずしも持たないことの反例も同時に与えている.

この問題はWaldの1941年から1942年までの研究によって,全く別の側面からも研究されている.推定量の有効性は問題としていないが,確率分布族の正則性条件の下で,最尤推定量に基づく統計的検定の漸近有効性を確立した.なお,Wald (1949) は最尤推定量の一致性を極めて一般的な形で証明している.

しかしながら,一般的な状況下での漸近有効推定量(漸近正規性を持ち,漸近分散が下界を達成する推定量)の存在,一般的な状況下での最尤推定量の漸近有効性はやはり正しくないものしか存在せず,正しい証明は全て強い仮定を持ち,特定の推定量のクラスに議論を限っている.しかしながらFisherの影響力が絶大であるためか,多くの書籍では上記の結果を所与のものとしがちである.

この状況を打開したのが Hodges (1951) であった.彼は漸近正規な推定量 T であって,漸近分散は常に最尤推定量より大きくなく,ある点において T の漸近分散は最尤推定量より真に小さいものを構成した.

その構成を次に示す. g(x|\xi)\mathrm{N}(\xi,1) の密度とし,この n 個の独立観測の平均 X_n を考える.この X_n\xi の最尤推定量になることは明らかで,分散は \sigma_n^2=1/n である.ここで,推定量 T_nX_n の関数として

    \[T_n(X_n)=\begin{cases}X_n&|X_n|\ge n^{-1/4}\\\alpha X_n&|X_n|<n^{-1/4}\end{cases}\qquad\alpha\in\R,\]

と定義する. T_n(X_n) は任意のパラメータ値 \xi について漸近正規性を持つ. \xi\ne0 ならば, T_n(X_n) の漸近分散も \sigma_n^2 である.一方で, \xi=0 の場合の T_n(X_n) の漸近分散は \alpha^2/n である. \alpha<1 に取ると,これは \sigma_n^2 より真に小さい.これは最尤推定量がこの例で「有効」であるわけではないことを意味する.

あの

あの

数学科出身の統計家志望.

関連記事

関連記事

コメント

この記事へのコメントはありません。

あの

あの

「あの」という名前でYouTube活動もしている数学科出身の統計家志望.

りん

りん

「りん」という名前であのちゃんのお世話をしながら、法律家を志してます。

107r57

土木工学者かつクイズプレイヤー.

TOP