学業でも仕事でも趣味でも、ずっと自然言語処理をやってきた。 別に最初からAIだのNLPだのに興味があったわけじゃない。 きっかけは、学生時代にちょっとしたレポートでテキストの単語出現頻度を数えようとしたとき、「あれ、そもそも日本語ってどうやって単語に分けんの?」って疑問が出たところからだ。 英語ならスペースで切れるけど、日本語はそうはいかない。で、いろいろ調べて「形態素解析」って言葉にたどり着いた。 その瞬間にちょっとハマったんだよね。 辞書をもとに文を機械的に切り刻んで、品詞をラベル付けして、統計を取って、構文を推定する。まるで人間の頭の中を数理的に覗いているようで。 そこからMeCabとかJumanとかKyTeaとか、いろんなツールを触った。 Pythonでテキスト処理のパイプラインを組んだり、mecab-ipadic-NEologdを突っ込んで新語に対応させたり。 「言葉を数理で扱え
