Create  Edit  Diff  ホーム  Index  Search  Changes  History  Source  RSS  wikifarm  Login

Pr.Cont.6

同時分布・周辺分布・条件つき分布

確率分布の概念を連続値の場合に拡張し、 特に実数値の場合について、便利な表現方法(累積分布関数と確率密度関数)を 学びました。

次の話題は、第 2 章「複数の確率変数のからみあい」の実数値版。 つまり、実数値の確率変数が複数あったとき、それらのからみ具合に ついてです。

第 2 章をふり返ると、議論の基盤は「同時分布」でした。

  • 同時分布には、そのメンバーに関するすべての情報が込められている
  • 実際、同時分布から、周辺分布や条件つき分布を自在に求めることができる

といったあたりを思い出してください (→ Pr.Multi.2「同時確率と周辺確率」)。

本節でもこれを踏襲し、まず同時分布の概念を導入して、 そこから周辺分布や条件つき分布を導出する方針でいきます。

ベクトル値確率変数と同時分布

最初の目標は、実数値の確率変数たちの「同時分布」という概念を導入することです。

復習として、実数値の確率変数 1 個についての「確率分布」とは何だったかを 思い出しておきましょう。 実数値の確率変数 X の確率分布とは、 「実数を要素とするあらゆる集合 A に対して、確率

P(X の値が A に属する)

を特定したもの」のこと でした*1

(図)

これを、実数値の確率変数 2 個について拡張するにはどうすればいいでしょう。 いつもの作戦で、「なんとかひねって、知っている話に帰着させる」という 手が使えないでしょうか。 ……と考えると、こんな発想が浮かびます。 実数値の確率変数 X, Y に対して、それを組にした

W = (X, Y)

を考えます。W は、2 次元ベクトルを値とする確率変数です。 この W の確率分布は、「2 次元空間内のあらゆる領域 A に対して、確率

P(W の値が A に属する)

を特定したもの」と定義するのが自然でしょう。

(図)

こうして定義された「W の確率分布」をもって、 「X と Y の同時分布」と呼ぶことにします。

3 個についても同様です。 W = (X, Y, Z) という「3 次元ベクトル値の確率変数」 を考えて、「3 次元空間内の任意の領域 A に対して P(W の値が A に属する) を特定したもの」が、「X, Y, Z の同様分布」です。

【FAQ】 「まとめてベクトルとみなす」というアイデアは、実数値のときに限る話なんですか? 同じアイデアが離散値のときでも使えそうに思うのですが。

→ はい。離散値でも OK です。 離散値のときにこの見方を説明しなかったのは、 「全組合せそれぞれの確率」という言い方で十分わかりやすいからでした。 ベクトルとか言いだすとかえって頭がしんどそうでしょう。

\memo{線形代数で言う「ベクトル」になってないのを, こだわるかどうか…}

これが実数値だと、 「それぞれの確率」の一覧表は 0 の羅列でナンセンスだから、 別の言い方を考えないといけません。 そこで、ベクトルとみなすことが「便利な手」になります。 【FAQ 終】

\memo{X が離散値, Y が連続値のときは…. 「直積集合」を定義するのが, 本書の目標レベルからはちょっとしんどい}

同時分布の表現法

実数値の(一変数の)確率分布についてなら、累積分布関数や確率密度関数を使って、 分布を式なりグラフなりで表現できました。 実数値の同時分布でも、同じように、分布を表現する方法がほしいところです。

累積分布関数の拡張は簡単です。

F_{X,Y}(x, y) = P(X < x かつ Y < y)
(F の右下に「X,Y」と書いて、あとはふつうに「(x, y)」を書く)

というのを考えてやればよい。

(図とグラフ例)

こんな F_{X,Y} が与えられていれば、図のような領域に入る確率も

P(x <= X < x' かつ y <= Y < y') = F_{X,Y}(x', y') - F_{X,Y}(x', y) - F_{X,Y}(x, y') + F_{X,Y}(x, y)

と表わせるし……

(図)

図のような領域に入る確率も、極限として表すことができます。

(図)

ですから、F_{X,Y} でちゃんと確率分布を表せて (あらゆる領域の確率を特定できて) います*2。 ……と一応説明しましたが、同時分布の累積分布関数を実際に使う場面は あまりないので、軽く流して構いません。

それよりも、主役は確率密度関数です。 一変数の確率分布では、

微小区間を考えて、長さあたりの確率の密度

というのが確率密度関数 f_X(x) でした。二変数の同時分布でも、これを自然に拡張して

微小領域を考えて、面積あたりの確率の密度

という確率密度関数 f_{X,Y}(x, y) が考えられます。 つまり、ベクトル W = (X, Y) が図の微小領域に入る確率が、ほぼ

P(x <= X < x + Δx かつ y <= Y < y + Δy) = f_{X,Y}(x, y) Δx Δy

と表わされるような f_{X,Y}(x, y) を、確率密度関数と呼ぶわけです。 Δx や Δy は、例の「まとめて一文字扱い」で、図の領域の面積とします。 変な記号を使ったのは、「小さな」というニュアンスを出すためです。 「ほぼ」でごまかしたあたりをより正確に言えば、

Δx → 0 かつ Δy → 0 のとき、
P(x <= X < x + Δx かつ y <= Y < y + Δy) / (Δx Δy) → f_{X,Y}(x, y)

この式は

確率 / 面積 = 確率密度

という格好なことを気に留めてください。

\memo{Δx や Δy が負のとき?}

(図とグラフ例)

「密度」と「積分」の意味を思い出せば、

P(W が領域 A に属する) = ∫ f_{X,Y}(x, y) dx dy   (領域 A 上で積分)

なことは納得でしょう。

(図)

当然、次のような性質は前と同様です。

  • 確率密度関数の値が大きいところは出やすく、小さいところは出にくい
  • 確率密度関数は 0 以上
  • 確率密度関数を全領域で積分すると 1

同時分布に対する累積分布関数と確率密度関数との関係は、

F_{X,Y}(x, y) = ∫ f_{X,Y}(u, v) du dv   (u は -∞ から x まで, v は -∞ から y まで)
f_{X,Y}(x, y) = ∂^2 F_{X,Y}(x, y) / (∂x∂y)

となります。 前者はさきほどの話から直ちにわかるし、 後者も、偏微分∂の意味を覚えていれば、図から明らかなはずです。

(図)

\memo{解析のおさらいが付録にいりそう. 微積分の意味, 偏微分と多重積分, など. 極限については, 「ぴったり重なっては元も子もない」をしっかり強調しないと (→ おれカネさんがいつか書いてたはず)}

(まだ)

同時分布に対しても、累積分布関数と確率密度関数との利害得失は、前と同様:

  • 累積分布関数 → 単純でいつでも使えるが、ちょっと見づらい
  • 確率密度関数 → 「密度」の概念さえわかれば見やすいが、使えないときもある

前にも言ったように、同時分布で累積分布関数を使う場面は多くありません。 確率密度関数を使える場面の方が典型的ですので、 ここからは、確率密度関数に専念します。

話の筋としては次は変数変換を述べるべきなのですが、 難度がやや高いので、あえて後回しにします。 それよりもっと易しくてしかも大切な話があるからです。

周辺分布

同時分布の確率密度関数 f_{X,Y}(x, y) が与えられていたら、 そこから周辺分布の確率密度関数も求められます。

f_X(x) = ∫f_{X,Y}(x, y) dy
f_Y(y) = ∫f_{X,Y}(x, y) dx

こうなる理由は、図から明らかでしょう。

(図)

もっと数が多いときも、

f_{X,Y,Z}(x, y, z) = ∫f_{X,Y,Z,W}(x, y, z, w) dw
f_{X,Z}(x, z) = ∫f_{X,Y,Z,W}(x, y, z, w) dy dw
f_{Z}(z) = ∫f_{X,Y,Z,W}(x, y, z, w) dx dy dw

のような調子です。

結果を見ると、離散値のときの総和 Σ が積分 ∫ に化けただけで、 格好としては離散値版と同じようになっています。 実はこの先も、たいていの話は「Σ が ∫ に化ける」だけです。

条件つき分布

次の話題は、条件つき分布です。 引き続き、 実数値の確率変数 X, Y について、 同時分布の確率密度関数 f_{X,Y}(x, y) が与えられていたとします。 いま、Y の値を観測したら Y = b だったとしてください。 このときに、 「Y = b という条件のもとでの、X の条件つき分布」を 考えたい。

そのためには、ここでもまた定義の拡張が必要になります。 離散値のときの定義

P(X = a | Y = b) = P(X = a, Y = b) / P(Y = b)

をそのまま持ってきたのでは、0/0 になってしまうからです。

ここはグラフで考えることにしましょう。 同時分布の確率密度関数は、たとえばこんなグラフになります。 「Y = b という場合に話を限定する」ことは、グラフ上では、 図の切口を見ることに相当します。

(図)

ですから、「Y = b という条件のもとで、X はどんな値が出やすいか」は、 この切口からわかるはずです。 切口が 高くなっているところは「そんな値が出やすい」、 低くなっているところは「そんな値が出にくい」。 となれば、この切口の形

g(a) = f_{X,Y}(a, b)

をもって「これが条件つき確率の確率密度関数だ」と 言いたくなってきますが……ちょっと待った。

一般に、確率密度関数 h は、

  • h(a) >= 0
  • ∫h(a) da = 1

という性質を持つはずでした。今の g では、後者が保証されません。 だから、g そのものを確率密度関数と認めるわけにはいきません。

ではどうするか。 出やすさ・出にくさの比率を保ちつつ、積分が 1 になるよう g を修正できれば、 話は円満におさまります。 そのためには、何かうまい定数 c で割って、

h(a) = g(a) / c

を考えればよい*3。 c の具体的な値は、積分が 1 になるよう調節します。 積分してみると

∫h(a) da = ∫g(a) da / c

ですから、

c = ∫g(a) da

と定めればめでたく ∫h(a) da = 1 にできます。 ところで、∫g(a) da というのは、

∫g(a) da = ∫f_{X,Y}(a, b) da = f_Y(b)

のように周辺分布に実はなっています。 これを使ってまとめると、

h(a) = g(a) / c = f_{X,Y}(a, b) / f_Y(b)

このように作れば、h(a) は確率密度関数の資格を満たします。

(図: 切口を縦に伸縮して、グラフの面積が 1 になるよう調節)

こんなふうに、切口から作られた確率密度関数をもって、 連続値の条件つき分布を定義します。 記号では、

f_{X|Y}(a|b) = f_{X,Y}(a, b) / f_Y(b)
(左辺は、f の右下に「X|Y」と書いて、あとはふつうに続けて「(a|b)」)

と書くことにします。 あるいは、分母をはらって

 f_{X,Y}(a, b) = f_{X|Y}(a|b) f_Y(b)

と書くこともできます。

\memo{f(X=a|Y=b) という記法は、(自分では使うけど)人前では抵抗あるよね…}

X と Y の役割を入れかえて同じ議論をすることで、

f_{Y|X}(b|a) = f_{X,Y}(a, b) / f_X(a)
f_{X,Y}(a, b) = f_{Y|X}(b|a) f_X(a)

という結果も得られます。

結論として得られた式は、離散値のときと同じような格好になりました。 並べてまとめておきます。

P(Y=b|X=a) = P(X=a, Y=b) / P(X=a) f_{Y|X}(b|a) = f_{X,Y}(a, b) / f_X(a)
P(X=a|Y=b) = P(X=a, Y=b) / P(Y=b) f_{Y|X}(b|a) = f_{X,Y}(a, b) / f_X(a)

あるいは、

P(X=a, Y=b) = P(X=a|Y=b) P(Y=b) f_{X,Y}(a, b) = f_{X|Y}(a|b) f_Y(b)
P(X=a, Y=b) = P(Y=b|X=a) P(X=a) f_{X,Y}(a, b) = f_{Y|X}(b|a) f_X(a)

縦棒の左右どちらがどちらの意味だったかも離散値のときと同じですから、 結果を頭に入れるのは楽ちんでしょう。 ただし、表しているものが違うことは忘れないでください。 P の方は「確率」、f の方は「確率密度」です。 確率密度は、積分してはじめて「確率」になります。

Bayes の公式

ここまでの結果を使えば、Bayes の公式(離散値版)

P(X = a | Y = b) = ア / イ
ア = P(Y = b | X = a) P(X = a)
イ = Σ_c P(Y = c | X = a) P(X = a)

の連続値版も作ることができます。

やりたいことは、

条件つき分布 f_{Y|X}(b|a) と
周辺分布 f_{X}(a) とが与えられたとして、
これらを使って
反対向きの条件つき分布 f_{X|Y}(a|b) を求める

です*4

練習として、自分で導いてみてください。 離散値版と同じ道筋をたどればできるはずです。

【演習】

f_{X|Y}(a|b) = ア / イ
ア = f_{Y|X}(b|a) f_X(a)
イ = ∫f_{Y|X}(c|a) f_X(a) dc

を示せ

→ (まだ) 【演習終】

これも結論は「離散値版と同じような格好」になりました。 例の「Σ が ∫ に化けるだけ」です。

\memo{Bayes の公式の意図・意義・うれしさの(再)確認を一言入れたい}

独立性

(まだ)

ここだけは, 分布の本来の定義にたち戻って独立性を定義. で, 確率密度関数で見るとうんぬん.

またしても結論は「離散値版と同じような格好」で 「Σ が ∫ に化けるだけ」になりました。

補足:同時分布の変数変換

線形代数と解析になじんでいない人は飛ばしてよし

(まだ: ヤコビアンうんぬん.)


コメントはプログラミングのための確率統計


Last modified:2005/09/10 19:32:03
Keyword(s):
References:[Pr.Cont] [Pr.Cont.A]

*1 玄人の方へ:この定義が不正確なことの注意は、前に述べました → Pr.Cont.3「 連続値の確率変数・確率分布」

*2 これが不正確で言いすぎなことは、前と同様。玄人以外はひとまず気にしなくてよいでしょう。

*3 「うまい定数 d をかけて h(a) = d g(a)」の方がすなおですが、どちらにしろやっていることは同じです(c = 1/d ととれば同じになります)。どちらを使ってもよかったのですが、見やすくなるので割り算の方にしました。

*4 本当は「…分布の確率密度関数」と言うべきですが、いちいちまどろっこしいですよね。「確率密度関数に専念する」(「確率密度関数が使える場合」に話を限定する)と宣言したのですから、「分布」と、その表現である「確率密度関数」とを同一視してしまっても、混乱のおそれはないでしょう。