こんにちは!研究所の佐藤(智)です。
トピックモデルによる統計的潜在的意味解析、 奥村学(監修)、佐藤一誠(著)、コロナ社 (2015年) を読んでみた感想(その2)です。
(その1)の記事;
今回は、本書の中で個人的に最も気になったについて書いてみます。 前回の記事式(1.2)の右辺:
(※あとの説明のため、 を
と置き換えました。)
は「一般的に解析的に計算することが困難」という話をしました。
変分近似法によるアプローチの場合、
上式を変形しながら計算を進めていくと、
の値を計算することに話が落ち着いてきます。
ここで、
は、
文書
の単語
における潜在変数
が
となる場合の近似事後分布を表しています。
しかしながら、この
についても、
直接の計算をすることはまだできず、
対数関数のテイラー展開というテクニックを使います。
ここで、対数関数のテイラー展開を簡単に説明します。
テイラー展開をおこなうモチベーションは、
解析的に計算が難しいと考えられる関数があった場合に、
多項式を使ってより簡単な形で表し計算したいことにあります。
対数関数 について、
点
の周りでのテイラー級数を考えると
と書き表すことができ、 0次のテイラー展開は
となり、2次までのテイラー展開は
となります。
は定数であり、
明らかに
のほうが
の近似になっているのですが。。。
本書では のとき、
の期待値
の周りでのテイラー展開を考えると、
のほうが
よりも汎化能力が高いことが経験的に知られているとのこと!
その理由の1つの解釈として、本書では以下の論文を紹介しています:
Issei Sato, Hiroshi Nakagawa,
Rethinking Collapsed Variational Bayes Inference for LDA,
Proceedings of the 29th International Conference on
Machine Learning (ICML 2012)
この論文を少し見てみました。
この論文によると、理由は カルバックライブラーダイバージェンス(KLD)が関係しているようです。
LDA の推定(計算)では KLD を で定義しています。
そして、
の 0 次テイラー展開
で LDA を推定する場合は、
計算にこの
を使います。
一方、
の 2次までのテイラー展開
で LDA を推定する場合は、
計算に
と
をスワップさせた
を使います。
この2種類の KLD の違いが、汎化能力の違いのキーになっているとのことです。
今回のブログはここまで。 これらの意味についてもう少しきちんと理解できたら、 本ブログでまた書きたいと思います。