はじめに 昨今、自然言語処理技術の発展はめざましく、様々な分野で応用が進められています。 そんな私も自然言語処理技術やAIを活用した業務をこなすことが多いのですが、その中でとりわけめんどくさい(しかし重要な)作業は、様々な前処理に関するものです。 大抵のタスクで実施することになる主な前処理としては、以下のようなものがあります。 クリーニング HTMLタグや記号等、テキスト中のノイズを除去 正規化(normalization) 全角・半角や大文字・小文字等の統一 文区切り(sentence segmentation) 文と文の区切りを検出し分割 単語分割(tokenization) 文を単語の列に分割 ストップワードの除去 解きたいタスクに不要な単語を除去 私は主にPythonを利用しているのですが、これらの中で日本語の文区切りについては適当なライブラリが無く、毎回似たようなコードを書く羽目