日本語の自然言語処理が絡んだ作業をする際に、 名詞だけ抜き出したい 名詞だけ抜き出したいが、接頭詞の「未」「非」とかもくっつけて抜き出したい 形容詞を抜き出したいが、否定の「ない」もくっつけて抜き出したい みたいに形態素解析をしたあとに形態素同士をつなげてフレーズの抽出をしたいシチュエーションがよくあると思う。 そういった特定の品詞の組み合わせをルールを定義することで、フレーズを抜き出せるPythonパッケージ「negima」を作った。 概要 例えば複合名詞を抽出したい場合、このようなルールを定義する。 id min max pos0 pos1 pos2 pos3 pos4 pos5 nouns 0 2 接頭詞 1 4 名詞 一般|サ変接続|数 0 2 名詞 接尾 このルールをnoun.csvとしてファイルに定義したとすると、 0個以上2個以下の接頭詞ではじまり、 1個以上4個以下の名詞(