タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

NLPとpythonに関するAOI-CATのブックマーク (1)

  • 日本語の文章をいい感じに文区切りするライブラリを作った - Qiita

    はじめに 昨今、自然言語処理技術の発展はめざましく、様々な分野で応用が進められています。 そんな私も自然言語処理技術AIを活用した業務をこなすことが多いのですが、その中でとりわけめんどくさい(しかし重要な)作業は、様々な前処理に関するものです。 大抵のタスクで実施することになる主な前処理としては、以下のようなものがあります。 クリーニング HTMLタグや記号等、テキスト中のノイズを除去 正規化(normalization) 全角・半角や大文字・小文字等の統一 文区切り(sentence segmentation) 文と文の区切りを検出し分割 単語分割(tokenization) 文を単語の列に分割 ストップワードの除去 解きたいタスクに不要な単語を除去 私は主にPythonを利用しているのですが、これらの中で日語の文区切りについては適当なライブラリが無く、毎回似たようなコードを書く羽目

    日本語の文章をいい感じに文区切りするライブラリを作った - Qiita
  • 1