CCCマーケティング データベースマーケティング研究所の Tech Blog

研究所スタッフによる格闘記録やマーケティング界隈についての記事など

「トピックモデルによる統計的潜在的意味解析」の本を読んでみた(その1)

こんにちは!研究所の佐藤(智)です。

トピックモデルによる統計的潜在的意味解析、
奥村学(監修)、佐藤一誠(著)、コロナ社 (2015年)


を読んでみました。 この本は、LDA (Latent Dirichlet Allocation、潜在ディリクレ配分法)を学ぶための 読書会/輪講用の文献として使われていることも多く、 まとめの資料もウェブ上に多く存在しています。 このブログでは、本書について 個人的に印象に残ったところを中心に書いてみたいと思います。

まず、本書には対数周辺尤度、カルバックライブラー方程式、 イエンセンの不等式、固定点反復法、ニュートン・ラフソン法などなど、 たくさんの式が出てきますが、 そもそもいったい何を目標にしているのか?、を考えてみました。

ベイズ推定における目的は、予測分布

{
\displaystyle
\begin{eqnarray}
P(x \mid x_1, \ldots, x_n, \eta, \alpha) \tag{1.1}
\end{eqnarray}
}

を区間推定することです。 ここで、(1.1)の条件にある  x_1, \ldots, x_n n 個の観測データであり、  \eta, \alpha はハイパーパラメータと呼ばれるユーザが任意に設定してよい値です。 そして、これらの条件が与えられたとき、値  x が出現する確率はいくらか!? を求めていこうとしています。

特に LDA では潜在変数と呼ばれる値  z = \left\{ z_1, \ldots, z_n \right\} が存在すると仮定し、  \phi = (\phi_1, \phi_2, \ldots, \phi_K) を 単語の出現分布、  \pi をトピック分布として、 上式を

{
\displaystyle
\begin{eqnarray}
     (1.1) &=& \sum_{z} p(x,z \mid x_1, \ldots, x_n, \eta, \alpha) \\
     &=& \int \sum_{z} p(x \mid  \phi_z) p(z \mid \pi)
     p(\phi, \pi \mid x_1, \ldots, x_n, \eta, \alpha) d\phi d\pi
\tag{1.2}
\end{eqnarray}
}

とモデル化します。 本書で行っていることのメインは、LDAのベイズ推定であり、 特に(1.2)式中の単語出現分布  \phi やトピック分布  \pi を推定することにより得られます。 そして、本質的には(1.1)を推定することがベースにあると、理解しました。

ここで、(1.2)の右辺は一般的に解析的に計算することが困難なため、 近似計算により推定していくいくつかの方法が知られています。 それらの例が、本書では ①サンプリング近似法、 ②変分近似法、 ③逐次ベイズ学習(変分法の場合)、 ④逐次ベイズ学習(サンプリング近似法の場合) になります。

余談になりますが、あるマーケティングサイエンスの学会で、 ある高名な先生が LDA の評価指標として「最尤推定」を用いていました。 当時私が知っていた評価指標としては、 本書に記載の「Perplexity」と「Coherence」のみだったこともあり、 「LDAで最尤推定?点推定?」と疑問に感じた記憶がありますが、 今にして思えば (1.1)を経由すれば、 LDA の評価指標に最尤推定を適用するのは結構 自然なのですね。