Create  Edit  Diff  ホーム  Index  Search  Changes  History  Source  RSS  wikifarm  Login

Pr.Cont.5

変数変換

前節では、

  • 累積分布関数(単純でいつでも使えるが、ちょっと見づらい)
  • 確率密度関数(「密度」の概念さえわかれば見やすいが、使えないときもある)

を導入しました。 これらによって、「連続値の確率分布」という新しい対象を、 式やグラフで表現して紙の上に書き留められるようになりました。 「対象を表現すること」を開拓の第一歩とするなら、 第二歩は、「その対象を操作できるようになること」です。 具体的には、「変数変換でその表現がどう変わるか」が、次のテーマとなります。

確率変数 X の確率分布がわかっていたとしましょう。 このとき、何か関数 g を持ってくれば、Y = g(X) という 新しい確率変数 Y が作られます。 この Y の確率分布を求めることが目標です。

離散値の確率変数 X については、その確率分布が単純な 「P(X=○○) = △△」の一覧表で表されたため、 話は簡単でした。 例えば、Y = 3 X - 5 なら

P(Y = 4) = P(3 X - 5 = 4) = P(3 X = 9) = P(X = 3)

ですし、Y = X^2 なら

P(Y = 4) = P(X^2 = 4) = P(X = 2 または X = -2) = P(X = 2) + P(X = -2)

という調子で、「P(Y=○○) = △△」の一覧表を作ることができます。

一方、連続値の確率変数では、事情が違ってきます。 確率分布の表現法が違うからです。

累積分布関数の変換

累積分布関数

F_X(a) = P(X < a)

の方の変換は、あまり大した話はありません。 「変換公式」としてパターンを覚えようなんて思うとかえって混乱しそうですから、 定義に戻って地道に計算する方が楽でしょう。

例えば、Y = 3 X - 5 として、P(Y < 4) を X の式に書き直してみてください。 答はもちろん、

P(Y < 4) = P(3 X - 5 < 4) = P(3 X < 9) = P(X < 3)

というだけのこと。 こんな調子で、Y の累積分布関数が

F_Y(b) = P(Y < b) = P(3 X - 5 < b) = P(X < (b + 5) / 3) = F_X((b + 5) / 3)

と計算されます。

もう一例。Y = X^3 として、P(Y < 8) はどうなるでしょうか。 同じようにやれば

P(Y < 8) = P(X^3 < 8) = P(X < 2)

です。累積分布関数も、

F_Y(b) = P(Y < b) = P(X^3 < b) = P(X < b^{1/3}) = F_X(b^{1/3})

で問題ありません。

「連続」で、しかも「X が増えれば Y も増える」というすなおな変換なら、 悩みどころは特にありません。 上の変換 g(x) = 3 x - 5 や g(x) = x^3 がそうなっていることを 確認しておいてください。

(図)

ただし、すなおでない変換では、いろいろうるさい問題が生じます。

このあとは、気合とこだわりのある人だけで結構です。 普通に読んでいる人は、スキップして次項「確率密度関数の変換」へ進んでください。

例えば、Y = - 2 X なら、P(Y < 4) はどうなるでしょう。 これも地道にやれば

P(Y < 4) = P(- 2 X < 4) = P(X > -2)

となりますが、不等号が反対向きになっていることに気をつけてください。 「X が大きいほど Y は小さくなる」という形の変換なので、 こんなふうになってしまいます。 そうるすと、Y の累積分布関数は、

F_Y(b) = P(Y < b) = P(- 2 X < b) = P(X > - b/2)

ここでちょっと困りました。右辺を F_X で表したいのですが、不等号が合いません。

F_X(- b/2) = P(X < - b/2)

を使って

1 - F_X(- b/2) = P(X >= - b/2)

なら得られますが、欲しいのは「P(X > - b/2)」ですから、 等号を含むか含まないかが違っています。 つまり、P(X = - b/2) の分だけ違っています。

P(X >= - b/2)
= P(X > -b/2 または X = - b/2)
= P(X > - b/2) + P(X = - b/2)

(図: 神様視点で. X > - b/2 と X = - b/2 は両立せず → 領域に重なりなし → 面積は和 → 確率は和)

もし F_X が連続だったら、話は簡単です。 この場合は P(X = - b/2) が 0 になるので、P(X >= - b/2) = P(X > - b/2)。 つまり、

F_Y(b) = 1 - F_X(- b/2)

が答です。

(図)

なぜ P(X = - b/2) が 0 かと言えば、(まだ)

一方、F_X が連続でないと、話はめんどうになります。 (まだ. P(X = a) = lim_{u = a+0} F_X(u) - F_X(a) をもっと前でおさえとくべきか)

もう一例、Y = X^2 なら、P(Y < 4) はどうなるでしょう。 この場合、X の値と Y の値とが一対一対応ではないため、 また別の注意が必要です。

P(Y < 4) = P(X^2 < 4) = P(-2 < X < 2) = P(X < 2) - P(X <= -2)

(まだ)

確率密度関数の変換

累積分布関数の値は「確率」でしたが、 確率密度関数の値は「確率」ではなく「確率密度」です。 この違いが、確率密度関数の変換則に大きく効いてきます。

X の確率密度関数 f_X が与えられているとき、 Y = 3 X - 5 として、Y の確率密度関数 f_Y はどうなるでしょう。 例えば、f_Y(4) はどうなるでしょうか。 ……うっかりこんなふうに計算してしまったら、大まちがいです。

Y = 4 になるのは、4 = 3 X - 5、つまり X = (4 + 5) / 3 = 3 のときだ。
だから、f_Y(4) = f_X(3) だろう --- まちがい!

「Y = 4 になるのは X = 3 のとき」まではそのとおりなのですが、 だからといって f_Y(4) = f_X(3) となるわけではありません。 なぜなら、 (まだ. Pr.Cont.2の練習を参照)

(以下まだ)

いまやって見せたのは、一番すなおな例です。

Y = - 3 X - 5 とか

f_Y(y) = f_X(x) |dx/dy|

【FAQ】 結果を覚えようとしたのですが、どこが x でどこが y だったか、 ごちゃごちゃになってしまいます。 うまい覚え方はありませんか?

→ この図で、

f_Y(y) Δy 〜 f_X(x) Δx

から

f_Y(y) 〜 f_X(x) Δx/Δy → f_X(x) |dx/dy|

というのはどうでしょうか (「〜」は「ほぼ等しい」)。

(図)

【FAQ 終】

\memo{Y = X^3 の原点}

(まだ)


コメントはプログラミングのための確率統計


Last modified:2005/09/08 00:29:13
Keyword(s):
References:[Pr.Cont] [Pr.Cont.9] [Pr.Cont.A]