というわけで、声優統計ひとりでできるもん!と題してちょっと頭の中にあったモデルを実践してみました。 お題:「声優キャスティングトピックモデル」。 事前知識 自然言語処理の分野には「トピックモデル」と呼ばれるモデルがある。 ものすごくざっくり説明すると、文章(の一塊)を単語の集まりでとらえた時に、その文章が「何について」の文章かで、どういう単語が良く登場するか、という「分布」が変化する、というようなことを考える。 ここで、「何について」という漠然とした「話題」を、「トピック」と呼ぶ。 例えばトピックとは、新聞における「政治」「国際」「経済」「社会」というような区分けだったり。 ブログ記事における(タグ付けで表記される)「日記」「感想」とか「アニメ」「ドラマCD」みたいなやつだったりする。 ここで問題になるのが、ひとつの文章は実際にはひとつの「トピック」では完結することはまずない、ということだ