情報とモデリング

これもまだ編集中(完全に趣味の領域)

クロード・シャノンは1948年に発表した『通信の数学的理論』で、エントロピー(entropy)を「不確実性、驚き」として定義し、さらに結合エントロピー(joint entropy)や相互情報量(mutual information)を定式化した。そして彼は、typicality(典型性)、i.i.d.(独立同分布)、LLN(大数の法則)を用いて、2つの定理―情報源符号化定理(source coding theorem)と通信路符号化定理channel coding theorem)―を証明した(なぜ英語を日本語にすると突然難しくなるのだろう…)。

通信は情報源にある情報を符号化(コード化)し、通信路(チャネル)を通って送られた情報を目的地で再度符号化(ディコード)する作業なのだが、その際に、通信路(チャネル)にはノイズが混じってしまう。2つの定理が示したのはクレバー(巧妙)なコードさえあれば、情報源を完全にコード化することができ、チャネルにノイズがあっても理論上完全に情報源の情報を目的地まで通信することができるということだ。

この考え方を(科学的)モデリングの文脈に置き換えるならば、情報源を自然そのもの、あるいは真の分布とみなし、符号化(コーディング)はモデリングと考えることができる。モデリング(得られた情報からの世界を記述すること)は基本的には情報の圧縮である(最良のモデルは最も情報を圧縮したモデルであり、最小記述長(minimum description length, MDL)で記述されるモデルだ。この辺りはAICなどともリンクしてくる)。このように考えると、もしこの世界が確率的(stochastic)に動いており、かつそのモデリングが完全で(すなわち損失がない(lossless))、十分に長いスケールで見たときには(極限においては)、そのモデルが持つエントロピー(=不確実性)は、自然が持つエントロピーという下限(lower bound)に収束することになる。これが情報源符号化定理だ。

一方、通信路符号化定理についても同様に考えると、通信路を自然、あるいは真の分布とみなし、復号(decoding)をモデリング(得られた情報からの世界の再構築)と考えるならば、もし復号が完全(lossless)であれば、チャネル内にノイズがあったとしても、私たちはチャネル容量という上限(upper bound)に達するまであらゆる情報を復元できることになる。ここでいうチャネル容量は、このアナロジーでは「自然が持つ情報量の上限(=エントロピー)」と同等に捉えることができる。

これらの定理は、今日の私たちから見るとある意味自明(self-evident)で、論理的真理(トートロジー)のように感じられるかもしれない。自然界が確率的で、もし私たちが自然界を完璧に記述(モデル化)することができるとしたら、私たちのモデルの持つ不確実さは自然界の持つ確率(下限)に収束する、などというのは当然のように感じられる。同様に通信が完璧であれば、通信はチャネルの上限に収束する、というのも当たり前と言えば当たり前のように感じる。

しかし、シャノンが偉大だったのは、そうした限界に“理論上”到達可能であることを、確率的存在証明(probabilistic existence proof)によって初めて示したことにある。つまり彼が偉大だったのは具体的なコードを示すことなく、巧妙に設計された符号によってその限界が達成可能であることを証明したことにある。

その証明の際にはtypicality(典型性)、i.i.d.性、そしてLLN(大数の法則)が使われた。i.i.d.な前提のもとで、長さが十分に大きいときには典型的なパターンが支配的になる。今日の視点からこれを見ると、これもまた、ある意味では自明な性質のように思える。ニュートンが言ったように、私たちは巨人の肩の上に立っている(standing on the shoulders of giants)。典型的(typical)な列(sequence)とは「期待される通りのふるまい」をする列のことだ。

たとえば、情報源が以下のように値を出力するとする。

  • 0 を出す確率が 0.6
  • 1 を出す確率が 0.4

このとき、次のような長いビット列を生成すると考える。

xⁿ = 010100010010110010…

この列が典型的であるとは、出てくる 0 の割合がおおよそ 60%、1 の割合がおおよそ 40% であり、つまり実際の出現頻度(経験的分布)が情報源の確率とよく一致しているということだ。各確率がi.i.d.、つまり独立であり、それぞれ全く同じ確率分布に従っており、シークエンスの長さが極限に達するならば(LLN)、当然シークエンスは典型性に辿り着く。これは漸近等分割性(Asymptotic Equipartition Property, AEP)と呼ばれ、それが意味するのは、長いシークエンスにおけるエントロピー(不確実性)は、典型的なシークエンスの集合体のように振る舞うということだ(ちなみにこのときコードは一文字ずつコーディングするのではなく、ブロックでコーディングしなければならない。これがLLNの前提のもとで典型性にたどり着くことを保証するトリックとなる。ブロックでコーディングしなければ、典型性は定義できない)。符号化や復号に必要なのはこの典型集合(typical set)だけだ。これによって彼は2つの定理を証明した。

ELBOにしてもMCMCにしてもAICにしても、そしてシャノンにしても、数学者というのは本当にクレバーだと思う。

因みにこのシャノンの情報理論は確率理論の延長であり、同じく確率理論の延長であるベイズ統計学と相性が良い。情報理論とベイズ統計が確率理論の延長であるということはそれらは公理系から始まる数学であるということだ。フィッシャー、ネイマン、ピアソンらのいわゆる頻度主義統計や尤度主義は尤度に基づいた道具的な存在であり、公理から導かれる数学とは異なる(尤度は確率の公理を満たさない。さらにいうなら、頻度主義も尤度主義も複合仮説を扱えないが、ベイズは自然に扱うことができる。そしてさらにいうならば尤度主義は一体全体何がしたいのかが全くわからないほどに意味が不明だ)。AICは頻度主義から始まっているが、情報理論的組み立て方がされているからAICは情報理論やベイズと頻度主義の橋渡しをするような存在だろう。

Previous
Next
上部へスクロール