corenlp-python に置いてある。 Stanford CoreNLP は Stanford で開発されている英語の自然言語処理に必要なツールを色々入れた Java のライブラリで、単語分割、文分割、品詞付与、原型の復元、固有表現抽出、構文解析、共参照解析など前処理の大抵のことができる。 CoreNLP の Python ラッパーはすでにあるが、このラッパーはかなりバグがある。例えばインプットに改行が入っていると改行の前までしか解析できなかったり、JSON-RPC が古いバージョンのプロトコルを使っていたり、処理を最長でも5秒でタイムアウトしてしまったり、30~50文以上あるテキストはそれ以降の文を全て破棄してしまうなどなどだ。 最後のバグは、おそらく最初に別のツール(nltkなど)で文分割をしてから使うことを想定しているのだろうが、CoreNLP はせっかく文分割のツールが入って