オッカムの剃刀とは思考の過程において、他が全て同じならば、簡潔な方を選ぶという考え方で簡潔性の原理とも呼ばれる。特に科学においては、複雑性(簡潔性)は異なるが予測精度が同じ複数のモデルがあるとすると、最も簡潔なモデルを選ぶのが最良である、という形で使われる。ここまではそれほど難しい状況ではない。予測精度が全く同じならば、わざわざ複雑なモデルを使う必要などどこにもない。しかし当然ながら事情はそれほど簡単でなく、往往にして複雑性(簡潔性)も予測精度も異なるモデルが存在するという状況の方が多い。そうすると複雑性(簡潔性)と予測精度の間にはトレードオフの関係が生じてくることになる。これはバイアス・バリアンス・トレードオフと呼ばれ、簡潔性を好むバイアス(思考の偏り)とモデルのデータに対する当てはまりの良さであるバリアンスの間のトレードオフの関係性のことである。基本的にはモデルを複雑にするとモデルはデータによく当てはまる。しかしこれは往往にして過剰適合と呼ばれる状況に陥る。過剰適合とは過去のデータ(手持ちのデータ)にはよく当てはまるが、新しいデータには当てはまらない、つまり新しいデータを予測することができないという状況である。これでは科学モデルの意味はない。
ではオッカムの剃刀はなぜ正しいのか。従来の考え方では、ヒューリスティックス(私たち人間に特有の認知的な嗜好)であるとかノーベル物理学賞を受賞したポール・ディラックが言ったように簡潔な方が「美しい」というような哲学的・美学的嗜好であると考えられていた。しかしオッカムの剃刀の正しさは数学(統計)的にも示すことができる。これはデイヴィッド・マッカイによって示され、ベイズファクターと呼ばれる。通常、数学(統計)ではモデルの複雑さはパラメータで測られる。
ベイズ統計学では二つのモデルが存在するときにいわゆるベイズファクターというものを用いてモデル比較を行う(Pは確率、Hは仮説、Oはデータを表す)。
\(\text{ベイズファクター}=\frac{P(H_2 \mid O)}{P(H_1 \mid O)} = \frac{P(O \mid H_2) P(H_2)}{P(O \mid H_1) P(H_1)}\)
この際に、ヒューリスティックスとか簡潔な方が「美しい」というような哲学的嗜好であれば、それは等式の右辺第二項である事前確率の比率の問題となる。それはそれで有用なのだが、今事前確率の比率を無視して考えてみると、ベイズファクターは尤度比に還元される。尤度はパラメータ(θ)の取りうる全ての値を積分したものなので、
\(P(O \mid H) = \int P(O \mid \theta, H) \, P(\theta \mid H) \, d\theta\)
となる。これは解析的に解くことが難しいことが多いので、ラプラス近似によって以下のように近似する。
\(P(O \mid H) \approx P(O \mid \hat{\theta}, H) \times \frac{V_{\text{事後}}}{V_{\text{事前}}}\)
ここで右辺第一項は最尤法であり、このモデルのバリアンスに相当する。通常パラメータの取りうる範囲が多いモデルは右辺第一項の最尤推定は高い値を得る。その他の条件が全て同じであれば、当然尤度が高いモデル(データへの適合度が高いモデル)が良いモデルとなるが、モデルにはバイアス・バリアンス・トレードオフが存在するので、バイアスも考えなければならない。上式の右辺第二項がバイアスに相当する。右辺第二項はデータを得る前にモデルとパラメータが予測するデータの範囲であるV事前とデータを得た後にモデルとパラメータが予測するデータの範囲であるV事後の比であり、1以下である。事前確率はデータが得られた後、尤度によってアップデートされるのだが、右辺第二項はデータが得られる前と比べ、データが得られた後どの程度予測範囲が収束したのかを意味する。モデルが複雑だと右辺第二項は低くなり、モデル全体への罰則項として機能する。つまりヒューリスティックスとか簡潔な方が「美しい」というような哲学的・美学的嗜好である事前確率比なしでもベイズ統計はオッカムの剃刀を具現化しているということになる。
もちろんヒューリスティックスとか簡潔な方が「美しい」というような哲学的・美学的嗜好である事前確率比もオッカムの剃刀となりうる。オッカムの剃刀はいわゆるアンブレラ・タームであり、さまざまな基準の総称である。別のオッカムの剃刀の考え方には情報量基準の考え方がある。最も有名なものに赤池情報量基準(AIC)が存在する。
\(\text{AIC} = – 2 \ln(\hat{L})+2k\)
この場合、右辺第一項が最尤法となり右辺第二項がパラメータの数となる。AICによるとAICを最小化するモデルが最良のモデルであるので、パラメータの数(の2倍)を足し合わせる右辺第二項はモデル全体への罰則項となっている。哲学的観点から見た際に、ベイズファクターとAICの違いはベイズファクターは仮説を想定しているかどうかという点にある。AICは仮説を想定していない。尤度概念を考えだしたフィッシャーは統計学を仮説の検証(有意検定)と推定(点推定)に分け、どちらも尤度を用いて解決しようとした。尤度は定義上仮説を想定していないと成立しない。尤度は
\(P(O|H)\)
と定義され、仮説を想定したときのデータの確率であり、その定義上仮説を想定しなければならない(別の場所にも書いたが正確には尤度は確率の公理を満たさない)。ベイズファクターも仮説を想定している。しかしAICを考えだした赤池弘次の専門領域である回帰分析や時系列分析はいわゆるカーブ・フィッティング(曲線当てはめ)の問題であり、それは仮説の検証であるとともに推定であり、フィッシャーの考えた仮説の検証と推定という区分は意味をなさない。どういったオッカムの剃刀を使うかは状況により異なる。
