確率とは何か、そしてそれは科学にとって何を意味するか

確率とは何なのか。これに大きく分けて二つの考え方がある。一つはこの世界は実際に確率的であり、それゆえに世界の中に確率が存在するという考え方(難しく言うと存在論的な考え方)、もう一つは私たちの無知、知識の限界ゆえに私たちは不確実性という意味で確率という考え方を使用せざるを得ないという考え方(難しく言うと認識論的な考え方)だ。ニュートン力学および相対性理論、つまりいわゆる古典力学の世界観は世界は決定論的、つまり非確率的であるというものだ。話を簡単にするためにニュートン力学で考えると、F=maというアルゴリズム(自然法則)に初期条件が入力されると、(積分という計算を通して)結果が正確に出力される(積分は基本的にフェイズスペース(力学の系の意味、簡単に言うと自分が考えている世界の全て)の時間発展だ)。この世界観の中では確率というものは存在しない。だからこそニュートンの後継者の一人であるラプラスはラプラスの悪魔(魔物)という思考実験をした。もしもこの世界のある時点での情報を全て知っていて、それをF=maに入力し計算できる能力を持っている悪魔がいたとしたら、その悪魔は未来永劫を確率的でなく正確に予測することができる、ということになる。

そしてここが面白いところなのだが、古典力学のいうように本当に世界が決定論的、つまり確率的でないとしたら、時間は未来と過去に対してシンメトリー(対称)であり、未来だけでなく、過去も正確に予測できることとなる。つまり時間の方向性といったようなものは存在しなくなる。これはどういうことかというと、例えば、ビリヤードテーブルをフェイズスペースと考えて、球を打ち、それを動画に撮って逆再生する。もちろん厳密にいうと摩擦などがあるが、そういったものを無視すると(科学では理想化と呼ばれる)、通常通り再生しているのか、逆再生しているのかわからない、という状況に陥る。つまり時間は巻き戻しができる可逆なものであるということになる。

その後量子力学が出現し、解釈にもよるが、世界は実は本質的に確率的、つまり非決定論的である、という考え方が出現した。相対性理論を考えだしたアインシュタインは世界は決定論的であると考えていたために、量子力学を考えだした一人であるニールス・ボーアに対して「神はサイコロを振らない(God doesn’t play dice)」と言ったが、ボーアはそれに対して「神にどうするこうすると言うな(Don’t tell god what to do)」と返答したようだ。

ここで補足しておくと、たとえ世界が決定論的であったとしても、初期条件の微細な違いにより予測ができなくなるという三点問題と呼ばれる問題に端を発した決定論的カオスという問題が存在する。また、哲学の中では世界が決定論的であるならば、私たちが存在すると考えている自由意思は存在するのかという問題も現れてくる。世界の中に確率が存在せず、全てはF=maで決まっているとしたら、私たちは自由意思を持たないことになる。ちなみに幾人かの哲学者は量子力学が非決定論的であるから、自由意思は救われたと考えたが、ここでいう非決定論、つまり確率はランダムさであるので量子力学によって自由意思の問題が救われるということは考えにくい。自由意思はランダムさではない。

ただ量子力学の出現以前から熱力学(統計力学)という物理学分野が存在し、この分野では時間発展に伴いエントロピー(乱雑さ)は増大する、つまり時間が進むにつれてフェイズスペースの乱雑さは増大すると考えられてきた。閉じた部屋の片隅でガスを放出すると、時間が経つにつれてガスは部屋中に広がっていき、最終的には部屋中のどこをとってもガス濃度は確率的に均等(均衡状態)であり、ガスが放出された部屋の片隅に戻ることはない。つまり熱力学(統計力学)においては時間は不可逆であり未来と過去に対してシンメトリー(対称)ではないということになる。ガスの粒子はニュートン力学のF=maという運動方程式に従って動くはずだ。とすると時間は可逆であるはずだ。しかし実際には時間は不可逆に見える。生卵をゆで卵にはできても、ゆで卵を生卵に戻すことはできない。これは一体どういうことなのだろう。

スタンフォード大学の物理学者、統計学者だったエドウィン・ジェインズは、この世界が実際に決定論的であろうとなかろうと、熱力学(統計力学)は世界の中に実在する確率に関する理論なのではなくて、私たちの無知ゆえに存在する理論である、と考えた。言い換えるならば、熱力学(統計力学)は私たちの持つ情報の不完全性ゆえに存在する、ということになるし、さらに言い換えるならば、熱力学(統計力学)は私たちが不完全な情報から世界を推論する作業である、ということになる。私たちは神ではないのだから、世界の情報を完全に知ることはない。その不完全な情報しか持たない私たちが、それでもなんとか世界とはこのようなものだ、と知ろうとする作業、それこそが熱力学(統計力学)なのだ(ちなみにこの考え方は物理学者の間ではマイノリティだろう)。

では世界に関する限られた情報しか持たない私たちはどのように世界を知ろうとすれば良いのか。どのようにして世界はこのようなものであると推論すれば良いのか。ジェインズの考え方はその手持ちの情報と一致する最大エントロピーを持つ確率分布を選択するのが最も合理的であるというものだった(最大エントロピー原理)。ここでいうエントロピーとは情報理論のエントロピーであり、不確実性を意味する。そうすることで不当な、つまり精査されていない余計な前提を推論に持ち込むことはなくなる。つまり最大エントロピー原理とは、世界に関する限られた情報しか持たない私たちが世界とはどのようなものであるのかを知ろうとする(推論する)際には、手持ちの情報を最大限活用し、それ以外の精査されていない情報は持ち込まないのが最も合理的である、というとても常識的な考え方だ。

少し数式を追ってみよう。エントロピーは以下のようになる。

\[H(p) = -\sum_i p_i \log p_i\]

ここに限られた情報という制約条件を以下のように設定する。

正規化

\[\sum_i p_i = 1\]

平均エネルギー

\[\sum_i p_i E_i = \langle E \rangle\]

制約条件がある際の最適化にはラグランジュの方法が使われるので、それを使って以下のようにする。

\[\mathcal{L}(p_i, \lambda, \beta) = -\sum_i p_i \log p_i – \lambda \left( \sum_i p_i – 1 \right) – \beta \left( \sum_i p_i E_i – \langle E \rangle \right)\]

これを最適化するためには微分して、それを0に設定すれば良いので、

\[\frac{\partial \mathcal{L}}{\partial p_i} = -\log p_i – 1 – \lambda – \beta E_i = 0\]

\[\log p_i = -1 – \lambda – \beta E_i \quad \Rightarrow \quad p_i = e^{-1 – \lambda} \cdot e^{-\beta E_i}\]

ここで

\[p_i = C \cdot e^{-\beta E_i}\]

と考えると、

\[\sum_i p_i = 1\]

\[\sum_i C \cdot e^{-\beta E_i} = 1\quad \Rightarrow \quad C \sum_i e^{-\beta E_i} = 1\quad \Rightarrow \quad C = \frac{1}{\sum_i e^{-\beta E_i}} = \frac{1}{Z}\]

\[p_i = \frac{e^{-\beta E_i}}{Z}\]

が導かれる。これは熱力学(統計力学)におけるボルツマン分布であり、簡単にいうと情報理論から熱力学(統計力学)が導けるということだ。

つまりこの考え方からは、熱力学(統計力学)とは実際に世界が本質的に確率的であるかどうかということとは関係なく、私たちが世界とはどのようなものかということを知ろうとする推論であるということになる。

では究極的にはこの推論とはどのようなものなのか。これは基本的にベイズ統計(ベイズ推論)である。計量経済学者アーノルド・ゼルナーは情報理論における情報処理(通信)が最適なときには情報理論は即ちベイズ統計(ベイズ推論)と一致するということを示した。情報理論においては、電話で会話するときのように、ある地点で入力された情報がチャネル(通信回路)を通じて別地点で出力されるのだが、入力と出力の間に差がなければないほど通信は最適となる。情報を失ったり、余分なノイズが加わったりする場合、通信は最適ではない。

入力を

\[I(\text{入力}) = \sum_i p(H_i) \log \frac{1}{p(H_i)}\]

とし、出力を

\[I(\text{出力}) = \sum_i p(H_i \mid O) \log \frac{1}{p(H_i \mid O)}\]

としたときに、その間の距離(のようなもの)は以下のカルバック・ライブラー情報量で定義される。

\[L = \sum_i p(H_i \mid O) \log \frac{p(H_i \mid O)}{p(H_i)}\]

今、

\[q(H_i) \equiv p(H_i \mid O)\]

として

入力と出力の間での情報の損失を

\[\text{情報の損失} = D_{\text{KL}}(q(H_i) | p(H_i)) = \sum_i q(H_i) \log \frac{q(H_i)}{p(H_i)}\]

とする。ここで事後分布 q(H) がデータをよりよく説明する仮説を好むようにするために、事後分布における対数尤度の期待値が一定となるように制約を課す。

\[\sum_i q(H_i) \log L(H_i) = c \quad \text{(制約条件)}\]

ラグランジュ法を使い、カルバック・ライブラー情報量を最小化する。

\[\mathcal{L} = \sum_i q(H_i) \log \frac{q(H_i)}{p(H_i)}\mu \left( \sum_i q(H_i) – 1 \right)\lambda \left( \sum_i q(H_i) \log L(H_i) – c \right)\]

これを微分して0に設定するので

\[\frac{\partial \mathcal{L}}{\partial q(H_i)}= \log \frac{q(H_i)}{p(H_i)} + 1 – \lambda \log L(H_i) – \mu = 0\]

\[\log \frac{q(H_i)}{p(H_i)} = \lambda \log L(H_i) + \mu’ \quad \text{(where } \mu’ = \mu – 1 \text{)}\]

\[\frac{q(H_i)}{p(H_i)} = L(H_i)^\lambda \cdot e^{\mu’}\]

\[q(H_i) \propto p(H_i) L(H_i)^\lambda\]

ここでλを1に設定すると

\[q(H_i) \propto p(H_i) L(H_i)\]

\[q(H_i) = \frac{p(H_i) L(H_i)}{\sum_j p(H_j) L(H_j)} = p(H_i \mid O)\]

としてベイズの定理が導かれる。

さてこれらは科学にとって何を意味するのか。従来の科学哲学は物理学(古典力学、量子力学)を模範としてそれに生物学やら社会科学を近づけようとするものだった。ニュートン力学の成立以降、ニュートン力学(物理学)は科学の模範となり、そのほかの科学はハードサイエンスである物理学に近づこうとした。しかし実際には物理学(古典力学、量子力学)こそが例外的な科学であり、そのほか、つまり生物学や社会科学、心理学などは全く考え方が異なる科学であるということになる。物理学(古典力学、量子力学)は神の定めたルールを知ろうとするもの、もしくはある量子力学の研究者が言ったように、神のプレイするポーカーの手を覗き見ようとするものであるが、そのほかの科学はこの世界の中で生きる私たちが、限られた情報に基づいてなんとか世界を知ろうとするものである。それらは次元の異なる話だ。だから、例えば、世界が決定論的で可逆なものであったとしても、エントロピーが増大するということ(不可逆性の存在)は問題ないということになる。

例えば、哲学者ダニエル・デネットは進化における自然選択を「力」と捉える。つまり進化理論を古典力学の枠組みで捉えようとしている。上記の考え方からは、この考え方は全く間違っているということになる(ちなみにいうとデネットは心と進化を専門にする哲学者なのだが、正直、心に関しても進化に関しても彼の理論に賛同できる点は全くない)。進化理論という枠組みは限られた情報をもとにした推論でしかない。当然心理学もそうだし、社会科学もそうだ。

確率とは何かというもう一つの考え方があり、ここでは主観解釈(ベイズ確率)と客観解釈(頻度主義確率)と呼ばれるものが存在する。前者は確率は私たちの信念の度合いであるという考え方で、後者は極限で収束するものであるという考え方だ。おそらく上記のコンテクストでは主観解釈(ベイズ確率)とのマッチングが良い。というか、私たちは神でもラプラスの悪魔でもないのだから、当然私たちの知識は限られたものである。そうであれば、確率の少なくとも一つの源泉は私たちの無知(知識の限界)であることは確かだろう。

ちなみに面白いのが、ベイズ推論の中でMCMCや勾配法などといった最適化やサンプリングをする際に古典力学の考え方がたくさん使われるということだ。例えば、ハミルトニアン・モンテカルロや勾配法は古典力学の第二法則であるF=maのエネルギー形式であるハミルトニアン形式を使い、さらに第一法則、つまり慣性の法則であるモメンタムを用いる。またCTPFにおける境界条件は第三法則に似ている。

Previous
Next
上部へスクロール