こんにちは。 DSOC R&D グループの高橋寛治です。 前回のTF-IDFで、使ってはいたけれど触れなかった文書や単語の表現方法について述べます。 実際に文書をベクトルとして表現し、コサイン類似度を計算することで理解を深めます。 scikit-learnを使わずにできる限りnumpyを利用してコードを記述してみます。 ノートブックはこちらにあります。 ベクトルで取り扱うと計算しやすい 自然言語を取り扱う研究では、文書や単語といったように自然言語を何らかの単位で取り扱います。 自然言語処理でも活用される機械学習手法は、数式で表現されるものであり、データやその演算はベクトルで取り扱われています。 自然言語処理を機械学習で取り扱うために、文書や単語をベクトル化します。 前回紹介したTF-IDFの場合は、文書を単語で構成されたベクトルとしていました。 ベクトル化する単語や文書とは何かを述べていき