AICとBIC似て非なるもの

自分用メモ

\(\text{AIC} = -2 \log L(\hat{\theta}) + 2k\)

\(\text{BIC} = -2 \log L(\hat{\theta}) + k \log n\)

統計学で使われる赤池情報量基準(AIC)とベイズ情報量規準(BIC)は似て非なるものだ。両者ともバイアス・バリアンスのトレードオフ(モデルの複雑さと簡潔さおよびモデルの予測、汎化能力のトレードオフ)を行うものだ。一般的にモデルが複雑になれば、既存のデータにはフィットするが、新規データの予測、汎化性能は落ち、過学習(オーバーフィッティング)の状態になる。両者ともそのトレードオフを見極めるための道具であり、AICが発表されすぐにAICに影響を受けて、BICは発表され、AICとBICという名前も似通っており(そして最初のものがAで、次がBとなっており)、似通った基準として、よくサンプルサイズが小さい時にはAIC、大きい時にはBICなどと言われるが、両者はその思想的基盤が大きく異なる。

一番大きな差異はAICはアブダクションおよび頻度主義に基づいて作られており、BICはベイズ統計学に基づいて作られているという点だ。アブダクションは仮説の創造であり、赤池弘次はフィッシャーの統計学は尤度に基づいており、仮設検証(有意検定)と推定(点推定)に分かれるが、時系列分析、回帰分析などのカーブフィッティングにおいては検証と推定を分けることはできないから、その両方に使える仮説の創造の道具としてAICを作った。ゆえにAICは仮説を前提しなくても良い。仮説を前提せずにどのモデルが一番良いか、予測能力が高いかを見極めることができる(アブダクションは哲学者ギルバート・ハーマンにより「最良説明への推論」と呼ばれ、推論の部分は帰納法、最良説明というのは良さ、つまり価値観である。哲学者ヒラリー・パトナムがいうように認知的価値も価値だ。価値を排除して客観的に科学を行うというのは無理だ。だから尤度原理をなんとかして客観的科学として立ち上げようとしている哲学者エリオット・ソーバーのAIC解釈は間違っている。まあ、これに関しては赤池弘次自身もそう言っており、彼はソーバーやその同僚だったマルコム・フォースターを念頭にそう言っていると思われる)。この辺りAICは尤度を使うにも関わらず、カルバック・ライブラー情報量に基づいてとても上手く作られている。これは本当に天才的だ。

一方、BICは尤度に事前確率を掛け合わせたベイズ統計学の考え方に基づいており、仮説は事前に必要となる。やはりここが一番大きな違いだろう。ベイズ統計学はベイズの定理に基づいて、事前確率から尤度というドライブにより、信念をアップデートし、事後確立を求める。

\(P(H \mid O) = \frac{P(O \mid H) \cdot P(H)}{P(O)}\)

当然ながら、事後確立を求めるには事前確立、つまり仮説と尤度(尤度は仮説を前提とした時のデータの確立だ)が必要になる。このように見てみるとAICとBICは似ていて非なるものであるということがわかる。

BIC

ベイズ統計ではモデル選択(比較)はベイズファクターによって行われる。

\[\text{BF}_{10} = \frac{P(\ O \mid H_1)}{P(\ O \mid H_0)}\]

これは端的に周辺尤度の比である。周辺尤度は事前確率上で尤度を平均化する。ここでkはパラメータ数である。周辺尤度はパラメータ数が多い時(ディメンションが高い時)、解析的に(つまり積分で)求めることが難しい。

\[P(\ O \mid H_k) = \int P(\ O \mid \theta_k, H_k) \, \pi(\theta_k \mid H_k) \, d\theta_k\]

そこでこれに対してピーク(最大尤度)のところでラプラス近似を行う(ここでCは定数)。

\[\log P(\ O \mid H_k) \approx \log L_k – \frac{k}{2} \log n + \text{C}\]

ここから定数Cを落とすと、

\[\text{BIC}_k = -2 \log L_k + k \log n\]

が導き出される。ログを取ることでベイズファクターは以下のように変換され、モデル比較ができることとなる。

\[\log \text{BF}_{10} \approx \log P(\ O \mid H_1) – \log P(\ O \mid H_0)\]

\[\log \text{BF}_{10} \approx -\frac{1}{2} \left( \text{BIC}_1 – \text{BIC}_0 \right)\]

オッカムファクター

数学者およびエンジニアであるデイヴィッド・マッカイは周辺尤度を以下のように読み替えた。

\[P(O \mid H) \approx P(O \mid \hat{\theta}) \times \text{オッカムファクター}\]

ここでθはMAP(最尤事後推定値)または MLE(最尤推定値)であり、オッカムファクターとは事後分布の広がりが、事前分布の広がりに比べてどれだけ圧縮されるかを表す量である。つまりモデルが確率を非常に広いパラメータ空間に分散させていて、そのうちのごく一部の領域しかデータに適合しない場合、そのモデルはペナルティを受けることになる。ここでラプラス近似を行うと、

\[\int P(O \mid \theta) \, \pi(\theta) \, d\theta \approx P(O \mid \hat{\theta}) \cdot \text{事後分布がどれだけの範囲に広がっているかを表す項}\]

となり、事後分布がどれだけの範囲に広がっているかを表す項がオッカムファクターである。このlogをとると、

\[\log P(O \mid H) \approx \log P(O \mid \hat{\theta}) – \frac{k}{2} \log n\]

となりBICに近似される。マッカイのオッカムファクターはBICを幾何学的に捉えたものであると言える。

Previous
Next
上部へスクロール