日本語の自然言語処理が絡んだ作業をする際に、 名詞だけ抜き出したい 名詞だけ抜き出したいが、接頭詞の「未」「非」とかもくっつけて抜き出したい 形容詞を抜き出したいが、否定の「ない」もくっつけて抜き出したい みたいに形態素解析をしたあとに形態素同士をつなげてフレーズの抽出をしたいシチュエーションがよくあると思う。 そういった特定の品詞の組み合わせをルールを定義することで、フレーズを抜き出せるPythonパッケージ「negima」を作った。 概要 例えば複合名詞を抽出したい場合、このようなルールを定義する。 id min max pos0 pos1 pos2 pos3 pos4 pos5 nouns 0 2 接頭詞 1 4 名詞 一般|サ変接続|数 0 2 名詞 接尾 このルールをnoun.csvとしてファイルに定義したとすると、 0個以上2個以下の接頭詞ではじまり、 1個以上4個以下の名詞(
![好きな品詞の組み合わせのフレーズを抜き出すPythonパッケージ「negima」を作った - ぴよぴよ.py](https://cdn-ak-scissors.b.st-hatena.com/image/square/d77256c705efe915632d24218866f42378526bfd/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fc%2Fcocodrips%2F20180820%2F20180820144644.png)