概要 自然言語処理におけるディープラーニングでニューラルネットを構成する際には、RNNやLSTMなどの層の前に、単語ごとに任意の次元のベクトルを用意した埋め込み層(embedding layer)を利用することがあります。この層はニューラルネットの学習の際に同時に重みを学習することもできますが、既に単語の分散表現(word embedding)を別の手法やデータセットで学習しておき、学習済みの分散表現を重みとして利用することができます。 今回は、Kerasにおいて埋め込み層に学習済みの分散表現を利用する方法を紹介します。今回は、word2vec等の機能を提供しているパッケージgensimでの読み込み機能を用いることにします。 方法 日本語の単語分散表現 今回は東北大の乾/岡崎研究室が公開している「日本語 Wikipedia エンティティベクトル」を利用します。 日本語 Wikipedia