【抄訳】Cramér (1925) On Some Classes of Series Used in Mathematical Statistics

確率統計学

次のデンマークでの国際会議での講義録の内容を抄訳した.

Cramér, Harald (1925) On Some Classes of Series Used in Mathematical Statistics Matematiker Kongressen i København 31. August — 4. September 1925: Den Sjette Skandinaviske Matematikerkongres.: Beretning Udgiven af Kongressens Organisationskomite 399-425

この文献は非常にアクセスが難しかったが,例えばここに正式名称が残っていて助かった.これを用いて大学のE-jornal Portalから検索を書けると,最終的にGale Primary SourcesNineteenth Century Collections Onlineからデータが見つかり,読むことが出来た.Gram-Charlier展開やEdgeworth展開やなどの漸近展開の手法が最初に使われ始めた時期に書かれたレビューで,非常に歴史的な価値が高いと思ったので,どうしても読みたかった.ということで,読んだ際に付けたメモを以下に残すこととした.

歴史的な含意としては,スカンジナビアとドイツの天文学者が,誤差の解析を通じて漸近展開を使い始めた,ということが書いてある.スウェーデンの天文学者 Carl Charlier と Thorvald Thiele, Jørgen Pedersen Gram らデンマークのアクチュアリーと,ドイツは Heinrich Bruns などの天文学者が最初であったという.その数学的な基礎付けを与えようとしている文献である.

論文の内容の翻訳と,概略して済ませている地の文とが混じっており,少し読みづらい部分もあるかもしれない.

以下本文

統計を要請する科学分野で働くものの多くは,解くのに高度な数学知識を必要とする問題に出会うことがある.しかし何かしらの解決を見る必要がある訳で,それで統計はいつだって実践が理論に先行する.その例に昨今のスカンジナビアとドイツの数理統計で使われる無限級数の問題がある.

統計理論でこのような無限級数は,正規密度からの逸脱(deviation)の具合を表す解析的表示を求めるための問題を解くために使われる.そして正規密度は展開の初項と見られ,最初の3,4項を考えるだけで十分な正確さが得られるようだ.そしてこの級数は正規密度の導関数に係数をつけること繰り返すことで得られていく.このような級数はGram, Thiele, Bruns, Charlier, Edgeworthによって使われた.

\mathrm{N}(0,1) で近似する場合に議論を限り,

    \[f(x)=\sum_{\nu=0}^\infty\frac{c_\nu}{\nu!}\varphi^{(\nu)}(x).\]

という形で考える.この形を指数級数(exponential series)と呼ぼう.

数学者が級数を見たらまず収束を問題にするだろうが,私はこれを二の次だと考える.なぜならあとで示すように,他に重要な問題があるからである.しかし,ここでは最初に収束の問題を議論したい.なぜならば,1921にSwedishアクチュアリー協会で指数級数について講義をした際に,Phragmen教授が,指数級数を用いて統計解析する人間が収束性について突飛なことをいうと文句を言っていたためである.[筆者注:どうやらデンマークの有名な教科書がミスっている]

指数級数の収束性

全く形式的に

    \[f(x)\sim\sum_{\nu=0}^\infty\frac{c_\nu}{\nu!}\varphi^{(\nu)}(x),\qquad c_\nu=(-1)^\nu\int_\mathbb{R} fH_\nu dx.\]

と期待出来る. c_\nu の存在を認め,右辺の級数の収束を考えることが「収束性の問題」である.一般の標準化していない F\mathrm{N}(a,b) の密度 \varphi については,

    \[F(x)\sim\sum_{\nu=0}^\infty\frac{k_\nu}{\nu!}\varphi^{(\nu)}(x),\qquad k_\nu=(-b)^\nu\int_\R F(x)H_\nu\left(\frac{x-a}{b}\right)dx.\]

第3節で L^2-理論を解説し, f がHermite直交系に対して展開可能な十分条件を与えている.

補題 (Hermite直交系に対するParsevalの補題 Weyl 1909).f,g\in L^2(\R,e^{x^2/2}dx)について,

   

    \[f\sim\sum_{\nu=0}^\infty\frac{c_\nu}{\nu!}\varphi^{(\nu)}(x),\quad g\sim\sum_{\nu=0}^\infty\frac{\gamma_\nu}{\nu!}\varphi^{(\nu)}.\]

ならば,

   

    \[\int_\R f(x)g(x)e^{\frac{x^2}{2}}dx=\frac{1}{\sqrt{2\pi}}\sum_{\nu=0}^\infty\frac{c_\nu\gamma_\nu}{\nu!}.\]

定理

f\in C^1(\R)\cap C_0(\R)f'\in L^2(\R,e^{\frac{x^2}{2}}dx)を満たすならば,

   

    \[f(x)=\sum_{\nu=0}^\infty\frac{c_\nu}{\nu!}\varphi^{(\nu)}(x),\qquad x\in\R,c_\nu=(-1)^\nu\int_\R f(x)H_\nu(x)dx.\]

が成り立ち,右辺の級数は一様に絶対収束する.

第4節ではGalbrunによる総和核の方法を紹介し,Diniの定理のような \frac{1}{2}(f(x+0)+f(x-0)) に収束しますという結論と広義一様収束性を得るが「仮定は緩まったけど,級数の絶対収束性がわからないから,結論も弱まった」とまとめている.

第5節

数理統計の書物に通じている人は,すぐに上述の結果は書物に見られるより緩い仮定しか採用していないことに気づくであろう.実はこれ以上仮定を緩めることは出来ない.

    \[f(x)=e^{-\lambda x^2},\qquad \lambda>0.\]

という場合を考える.f'(x)=-2\lambda xe^{-\lambda x^2}であり,

   

    \[\norm{f'}_{L^2(\R,e^{x^2/2}dx)}=\int_\R 4\lambda^2x^2\exp\paren{-x^2\paren{2\lambda-\frac{1}{2}}}.\]

より,\lambda>\frac{1}{4}ならば定理の要件を満たすことが判る.

一方で,c_\nuの計算を通じて

   

    \[f(0)=\frac{1}{\sqrt{2\lambda}}\sum_{\nu=0}^\infty\frac{(2\nu)!}{2^{2\nu}(\nu!)^2}\paren{1-\frac{1}{2\lambda}}^\nu.\]

を得るが,これは\lambda>\frac{1}{4}で絶対収束,\lambda<\frac{1}{4}で発散という振る舞いをする.

第6節

こうして,収束性の問題の扱いは随分と杜撰であったことがわかるだろう.その理由の1つは,Hermite多項式と指数級数との定義が著者によってバラバラであることにあると考える.

筆者は第7節で,第3,4節の結果を一般の \mathrm{N}(a,b) の場合の結論に拡張して見せる.

指数級数の漸近的性質と根源誤差の仮定

数学の議論をしてきたが,基礎付けの点で重要でも,応用上真に重要なのは収束性ではない.

実用上は最初の4,5項しか用いないことを思い起こしてほしい.そもそも,関心のある確率変数 X を標準化することで,正規密度の1次と2次の導関数の項は消えるため,正規近似で随分良い精度を叩き出す.

そこで次の問題に分け入っていくことになる「密度 f のクラスであって,上述したような,指数級数展開の最初の数項で十分良い近似が与えられるようなクラスはどのようなものか?」

Is there a general class of statistical frequency-functions, which are able to be approximately represented by the first few terms of an exponential series?

つまり,収束性より,漸近的性質に興味がある. \nu の部分和についての極限より, n\to\infty の極限に興味がある.

この研究を始めるには,まず一般の密度について詳しく知る必要がある.というのも,このような漸近解析がなされるのは,特定の確率分布が生じてくる因果構造に対するモデルを考えている際なのであって,その際に f は特殊な構造を持つ.

例えば,このような漸近解析は最初に誤差論で(そして現状は誤差論のみで)なされた.誤差の分布に正規分布が出現するのはなぜか?という疑問に,ある種の回答を与える理論で,歴史的にはLaplaceによって初めて扱われ,その後は根源誤差の仮説(hypothesis of elementary errors)と呼ばれている.

つまり,密度 f を持つ確率変数は,膨大な確率変数の独立和として与えられていると仮定して解析を開始する.しかしこの仮定の下でのいままでの漸近解析は形式的な議論のみで,数学的には極めて怪しい.しかしその状態でも応用上は,形式的に得られた漸近展開の最初の数個の微小項を計算に入れることで,精度が十分改善されることが度々観察される.

しかし,この実用上の利益に満足せずさらに一歩踏み込んで「これが,誤差に関する根源誤差の仮説の証左の一つである」と論証したり,漸近展開の係数に現れるキュムラントなど(例えば歪度や尖度)を確率分布の特徴付けに使いたいならば,数学的な基礎付けが要請されるのである.

第九節

この節では数学的な定式化を与えている.

根源誤差 x_1,\cdots,x_n の分布関数を V_1,\cdots,V_n で表す.すると,誤差 x=x_1+\cdots+x_n の分布関数は V_1,\cdots,V_n の畳み込みが与える.各 x_i は平均 0 で分散 \sigma_i^2 を持つと仮定しても,一般性は失われない.すると, x の分散は \sigma^2:=\sigma_1^2+\cdots+\sigma_n^2 が与え, W(t):=V(\sigma t) は変数

    \[\frac{x}{\sigma}=\frac{x_1+\cdots+x_n}{\sigma}\]

の分布関数を与え,これは平均 0 で分散 1 である.

さて,誤差論によると, n が十分大きいとき, W は正規分布関数で近似できる.これは,第3節の知識からも説明出来る. W の指数級数展開を考えると, \Phi',\Phi'' の項は消えるため,

    \[W(x)\sim\Phi(x)+\sum_{\nu=3}^\infty\frac{c_\nu}{\nu!}\Phi^{(\nu)}(x),\qquad c_\nu=\frac{(-1)^\nu}{\nu}\int_\R H_\nu(x)dW(x).\]

を, V_k\in C^1(\R) かつある \lambda>\frac{1}{2\sigma^2_k} について V'<em>k\in L^2(\R,e^{\lambda x^2}dx) ならば得る.ただし,ここで各 c</em>\nu は存在するとは限らないものとする.ただし, \nu 次の積率が存在するためには, c_3,\cdots,c_\nu が存在することが必要であることに注意.

第十節

この節では第九節で得た数学的定式化を用いて,第八節で提起した問題の枠組みを定める.

問題は次の通りである.十分大きな n について,

  1. W-\Phi は小さい.
  2. n\to\infty の極限について,漸近的にいくつかの

        \[\frac{c_3}{3!}\Phi^{(3)}(x)+\frac{c_4}{4!}\Phi^{(4)}(x)+\cdots+\frac{c_h}{h!}\Phi^{(h)}(x)\]

    で近似できる.

のは,それぞれ, V_k がどのような性質を満たすときか?

この問題は保険会社のリスク管理の問題でも重要な意味を持つ.ここの根源誤差 x_i を個々の保険契約での損失・利益の揺らぎと見るのである.多くの場合, \Phi による一時近似では精度が足りないのである.

第十一節

第一の問題に答えていこう. W-\Phi が小さくなる,すなわち n\to\infty の極限で 0 に収束するのはいつか?この問題は多くの研究者が既に取り組んでおり,十分一般的な状況下で成り立つようである.

ここでは次の場合に限って考えてみよう.各根源誤差 x_i は3次の絶対積率

    \[\tau_i:=\int_\R|t|^3dV_i(t)<\infty,\qquad i=1,2,\cdots,n.\]

を持つとし,和を \tau:=\tau_1+\tau_2+\cdots+\tau_n とする.すると, \frac{\tau}{\sigma^3}\to0 が成り立つとき, W(x)\to\Phi(x)\;(n\to\infty)x\in\R 上一様に成り立つ.

もし V_kk に依らない, x_1,\cdots,x_n が同分布であるときは,次のような鋭い評価も得る:

    \[|W(x)-\Phi(x)|<K\frac{\log n}{\sqrt{n}}.\]

ただし, Kn,x に依らない定数である.

さらに一般的な定理が,Liapunov, Lindeberg, Levyらによって得られている.これらは例えば,積率に関する要件は, 1-次の積率の存在のみを課した状態でも, W\Phi への収束が保証出来る,というような結果である.なお,本当に 1-次の積率しか存在しないならば,指数級数のあらゆる係数 c_\nu\;(\nu\ge1) は無限大に発散するので,漸近解析は出来ないことになる.

第十二節

第二の問題に答えていく.つまり, V_k がいくつかの階数について,積率を持つとする.実は, x_1,\cdots,x_n が同分布であるときは,

    \[c_\nu=O\left(n^{\lfloor\frac{\nu}{3}\rfloor-\frac{\nu}{2}}\right)\quad(n\to\infty)\]

が成り立つ.同分布でない場合も,その積率についてある種の正則性条件を満たすならば,やはりこのオーダーを持つ.

ではこれで,元の指数級数が漸近展開を与えるか?というと,実は違う.これをBernoulliの変数の場合を通じて見てみよう.

x_k\sim\mathrm{Ber}(p) としたとき,

    \[W(x)=P[x\le np+x\sqrt{npq}],\qquad q:=1-p.\]

となる.この分布関数のグラフは,

    \[x=s_\mu=\frac{\mu-np}{\sqrt{npq}},\qquad\mu=0,1,\cdots,n.\]

にて,幅

    \[\rho_\mu:=\begin{pmatrix}n\\\mu\end{pmatrix}p^\mu q^{n-\mu}.\]

のジャンプをする階段関数になっている.実はこのジャンプ幅が n^{-\frac{1}{2}} のオーダーを持つため,

    \[\left|W(x)-\Phi(x)-\sum_{\nu=3}^h\frac{c_\nu}{\nu!}\Phi^{(\nu)}(x)\right|<\frac{K}{n^\alpha}.\]

という形の結果は, \alpha>\frac{1}{2} については, K をどのようにとっても成り立たないことが判る. \alpha=\frac{1}{2} の場合は

    \[|W(x)-\Phi(x)|<\frac{K}{n^{\frac{1}{2}}}.\]

という結果を得る.つまり,この場合の W は,漸近展開をしても,正規近似以上の近似精度を得られないということである.

特に p=q=\frac{1}{2} の場合が興味深い.このとき c_3=0 となり, n^{-1},n^{-1/2} の項は全て消えている.しかしこのときでも残差

    \[W(x)-\Phi(x)-\sum_{\nu=3}^h\frac{c_\nu}{\nu!}\Phi^{(\nu)}(x)\]

O(n^{-\frac{1}{2}}) のオーダーを持つ.

このような状況は, \mathrm{Ber}(p) が離散分布だから,というわけでは別にない.

    \[V_k(x)=p\Phi(\alpha k^2(x-q))+q\Phi(\alpha k^2(x+p)).\]

という混合正規分布についても同様の状況が起こる.というのも,特に x_1,\cdots,x_n が同分布の場合, W の指数級数展開は \R 上一様に絶対収束するが, \alpha が十分に大きいならば,残差は任意の固定された h\in\mathbb{N} に対して,オーダー O(n^{-\frac{1}{2}}) を持つことがある.なぜ近似が成功していないのか?

第十三節

W の指数級数展開を考えることで, \Phi との差が漸近的に縮まる,とは限らないことを十二節でみた.

この節では「漸近表現」の考え方を少し変えることでこれを解決する.次節ではこれをさらに精緻化しよう.

以降,添字が多くなることを回避するため x_1,\cdots,x_n は同分布としよう.このとき,次が成り立つ.

任意の \beta>0h\in\mathbb{N}^+ とについて, c_{3h+1}<\infty が成り立つならば,

    \[\int^\beta_{-\beta}\cdots\int^\beta_{-\beta}\left(W(z)-\Phi(z)-\sum_{\nu=3}^{3h}\frac{c_\nu}{\nu!}\Phi^{(\nu)}(z)\right)dt_1\cdots dt_h=O\left(\frac{\log^2n}{n^{\frac{h+1}{2}}}\right),\qquad z=x+t_1+\cdots+t_h.\]

x\in\R 上一様に成り立つ.

この定理からまず, h を1つ大きく取る毎に,指数級数展開の項を新たに 3 つ考慮に入れる必要が生じることが判る.

次に,

    \[\Phi(x)+\sum_{\nu=3}^{3h}\frac{c_\nu}{\nu!}\Phi^{(\nu)}(x).\]

\Phi の代わりに使うことで, W に向けた平滑化に成功する,ということが保証されたことにもなる.

このあと証明の概略が述べられるが,特性関数のことを adjunct of the probability function と表現していることが興味深く,式も

    \[w(t)=\int_\R e^{-itx}dW(x).\]

と表されている.

この定理は,所望のオーダーでの近似がほしいならば h 重積分が必要である,という意味で本質的である.

第十四節

V_k が追加の条件を満たすならば, W の通常の意味での「漸近展開」が得られる.

引き続き同分布の仮定の下で,典型的な根源誤差を V_0(x):=V_k(\sigma_kx) とおく.これについて,次が成り立つ:

V_0'' が存在し,

    \[\left|V''_0(x)+\frac{x}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\right|\le\frac{1}{2\sqrt{\pi}}e^{-\frac{x^2}{4}}.\]

を満たすならば,任意の h\in\mathbb{N}^+ に対して,

    \[\left|W(x)-\Phi(x)-\sum_{\nu=3}^{3h}\frac{c_\nu}{\nu!}\Phi^{(\nu)}(x)\right|<Kn^{-\frac{h+1}{2}}e^{-\frac{x^2}{4}}.\]

が成り立ち, K>0n,x と独立に取れる.

第十五節

根源誤差の仮説に関連して,Charlierはまた別の種の級数を考案した.本人は B-級数と呼んでいる.一般的な枠組みでは,次のように述べられる.

対象はやはり

    \[x=x_1+\cdots+x_n.\]

の形で表される変数である.この分布関数を V で表す.しかし, x_1,\cdots,x_n の分布関数については,同分布とはせず,次のような緩い依存関係を想定する. \lambda>0 を定数, U を別の分布関数として,

    \[V_1(t)=\cdots=V_n(t)=\left(1-\frac{\lambda}{n}\right)1_{[0,\infty)}(t)+\frac{\lambda}{n}U(t).\]

とする.すると,各分布関数 V,V_1,U のFourier変換を v,v_1,u で表すこととすると,

    \[v_1(t)=1+\frac{\lambda}{n}\biggl(u(t)-1\biggr)\]

    \[\lim_{n\to\infty}v(t)=\lim_{n\to\infty}(v_1(t))^n=e^{\lambda(u(t)-1)}.\]

を満たす.よってこの考察から,実部と虚部を u=:\alpha+i\beta と表すと,収束の問題がなければ,極限関数は

    \[\lim_{n\to\infty}V(x)=\frac{1}{2}+\frac{1}{\pi}\int^\infty_0e^{\lambda(a(t)-1)}\sin(tx-\lambda\beta(t))\frac{dt}{t},\qquad x\in\mathrm{Cont}(V).\]

と表せる.

例として, U(x)=1_{[0,\infty)}(x-1) を取ると,これがCharlierが実際に考察した場合である. u(t)=e^{-it} となり,

    \[\lim_{n\to\infty}V(x)=\frac{1}{2}+\frac{1}{\pi}e^{-\lambda}\int^\infty_0e^{\lambda\cos t}\frac{\sin(tx-\lambda\sin t)}{t}dt.\]

と展開できる.この極限関数は, \N 上にジャンプを持つ階段関数で, x=\nu\in\N における跳躍は

    \[\psi_\lambda(\nu):=\frac{\lambda^\nu}{\nu!}e^{-\lambda}=\frac{1}{\pi}e^{-\lambda}\int^\pi_0e^{\lambda\cos t}\cos(t\nu-\lambda\sin t)dt.\]

で表される. Vx=\nu におけるジャンプの大きさの漸近表現は

    \[\psi_\lambda(\nu)+\frac{\alpha_0\psi_\lambda(\nu)+\alpha_1\psi_\lambda(\nu-1)+\alpha_2\psi_\lambda(\nu-2)}{n}+\frac{\beta_0\psi_\lambda(\nu)+\cdots+\beta_4\psi_\lambda(\nu-4)}{n^2}+\cdots\]

となる.ここに \psi_\nu の積分表示を代入したものが,CharlierがB-級数と呼ぶ所のものである.実際の応用上では極めて有用であることが判っている.しかしSteffensenが指摘しているように, \psi_\lambda(x) の積率は発散し得ることが理論的な障壁である.

あの

あの

数学科出身の統計家志望.

関連記事

関連記事

コメント

この記事へのコメントはありません。

あの

あの

「あの」という名前でYouTube活動もしている数学科出身の統計家志望.

りん

りん

「りん」という名前であのちゃんのお世話をしながら、法律家を志してます。

107r57

土木工学者かつクイズプレイヤー.

TOP