Comments
Description
Transcript
配布資料その2
§ 情報幾何構造の統計的意義・その2 — 期待値、分散、パラメータ推定 — 長岡浩司 June 11, 2006 「情報幾何への入門と応用」配付資料 [1] 一般に、統計多様体 S = {pθ } の接ベクトル u = P i ui (∂i )θ ∈ Tpθ (S) に対し、その e-表現 (e-representation) u(e) を u(e) := u `θ = X ui ∂i log pθ (: Ω → R) i で定める。このとき、Fisher 計量 g は g(u, v) = Eθ [u(e) v (e) ] =: hu(e) , v (e) ipθ (確率分布 pθ dµ に関する L2 -内積) と表される。 以下では S が指数型分布族 " pθ (ω) = exp C(ω) + d X # i θ Fi (ω) − ψ(θ) i= の場合を考える。 Remark 一般に u の α-表現は u(α) := u `(α) (← §3 [3])で定義される。 [2] p = pθ における接ベクトルの e-表現は (∂i )(e) p = Fi − ∂i ψ(θ) = Fi − ηi (θ) = Fi − hFi ip where hF ip := Ep [F ] で定まり、その全体は Tp(e) := {u(e) | u ∈ Tp } = {F | F ∈ F and hF ip = 0} where F := spanR {1, F1 , . . . , Fd } と表される。 Remark Ω が有限集合で S = P(Ω) の場合は F = RΩ (実数値確率変数全体) 1 [3] S 上のベクトル場 X = P i X i ∂i に対し X が S の e-接続に関して平行 ( e-parallel) ⇐⇒ ∃F ∈ F, ∀p ∈ S, (Xp )(e) = F − hF ip . [4] S 上の実数値関数 hF i : p 7→ hF ip の Fisher 計量に関する gradient の e-表現は (grad hF i)(e) p = F − hF ip よって grad hF i は e-parallel。 [5] (Theorem) ∀F ∈ F に対し k(d hF i)p k2 = Vp [F ] where 左辺 = X (∂i hF i)p (∂j hF i)p g ij (p) (cotangent space Tp∗ (S) 上の計量) i,j 右辺 = hF − hF ip ip (分散) [6] S の部分多様体 (曲指数型分布族 curved exponential family) M = {pθ(u) | u = (ua ) ∈ U }, U : open ⊂ Rm , m := dim M < dim S とその点 p = pθ(u) ∈ M に対し、M 上の関数 hF i|M の微分 (d hF i|M )p ∈ Tp∗ (M ) のノルムは k(d hF i|M )p k2 ≤ Vp [F ] を満たす。ここで 等号成立 at p ⇐⇒ (grad hF i)p ∈ Tp (M ) ∀p ∈ M で等号成立 ⇐⇒ (grad hF i)|M が M 上のベクトル場 (S の e-接続に関して平行な M 上のベクトル場) [7] 「真の分布は M に属するがパラメータ u の値が未知」という状況のもとで u の値を 推定する問題を考える。推定量は m-次元統計量 T = (T a ) : Ω → Rm 2 で表される。ただし T a ∈ F を仮定する。 Remark |Ω| < ∞ で S = P(Ω) の場合は仮定は不要。|Ω| = ∞ でも実は不要。 T が不偏性 (unbiasedness) ∀u ∈ U, hTiu = u (h · iu は分布 pθ(u) に関する期待値 ) を満たすならば、[6] において F の pθ(u) に関する分散共分散行列 Vu [T] と M の(座標系 [ua ] に関する)Fisher 情報行列 GM u に対し −1 Vu [T] ≥ (GM u ) が成り立つ (Cramér-Rao の不等式)。ここで p = pθ(u) で等号成立 ⇐⇒ ∀a ∈ {1, . . . , m}, T a − hT a iu ∈ Tp(e) (M ) [8] 与えられた曲指数型分布族 M およびその座標系 [ua ] に対し、Cramér-Rao 不等式の 等号をすべての u で達成するような推定量 T ((exact な) 有効推定量 efficient estimator と 呼ばれる)が存在するための必要十分条件は、M が指数型分布族( S の e-接続に関して自己 平行)であり、かつ [ua ] が期待値座標系(M の m-接続に関して affine な座標系)であるこ とである。また、有効推定量は(存在すれば)最尤推定量(S の最尤推定の M への m-射影) に一致する。 [9] N 個のデータを用いた推定量 T : ΩN → Rm の平均二乗誤差の漸近論 (N → ∞ の極 限) に関する甘利の定理 (Ann. Statist., 10, 357-385, 1982) を紹介する。以下は、Amari & Nagaoka, Methods of Information Geometry (AMS & OUP, 2000) からの抜粋を若干書き直 したものである。 In general, the estimator T = [T a ] contains a bias of order 1 N whose coefficient is C a (u). In order to reduce and compensate for this bias of the estimator, we use C a (T) instead of the bias C a (u), to obtain T ∗a = T a + 1 a C (T). 2N (1) We call this a bias-corrected estimator. The bias of T∗ is hT∗ iu − u = O( 1 ). N2 The mean square error of a bias-corrected first-order efficient estimator is given asymptotically by the expansion: ¡ ¢ 1 1 1 K ab + O( 3 ). h(T ∗a − ua ) T ∗b − ub i = g ab + 2 N 2N N 3 (2) K ab may be decomposed into the sum of positive semidefinite matrices: ´2ab ³ ´2ab ³ ´2ab ³ (e) (m) (m) K ab = ΓM + 2 HM + HA , (m) (e) (m) where the terms ΓM , HM , and HA (3) represent the m-connection coefficients of M , the em- bedding e-curvature of the model M , and the embedding m-curvature of A(u), respectively: ³ ´2ab (m) ΓM ³ ´2ab (e) HM ³ ´2ab (m) HA a b κ λ = Γ(m) cd Γ(m) ef g ce g df , = H (e) ce H (e) df gκλ g cd g ea g f b , a b = H (m) κλ H (m) µν g κµ g λν , (4) and (5) (6) and a = g(∇∂c ∂d , ∂b )g ba , κ = g(∇∂c ∂e , ∂λ )g λκ , a = g(∇∂κ ∂λ , ∂b )g ba . Γ(m) cd H (e) ce H (m) κλ Remark (m) (e) (m) 推定量 T の推定多様体(推定量を S の最尤推定からの M への射影とみなしたと きの、射影の逆像)に座標系 [v λ ] を導入し、M の座標系 [ua ] と合わせて [ua , v λ ] が S の座 標系を成すような状況を考えている。また、推定多様体と M との直交性(⇔ 一次漸近有効 性)を仮定している。 4