タグ

sudachiに関するni66lingのブックマーク (1)

  • SudachiPy による自然言語処理の正規化|npaka

    「SudachiPy」による自然言語処理の「正規化」についてまとめました。 1. SudachiPy「SudachiPy」はワークス徳島人工知能NLP研究所が開発している形態素解析器「Sudachi」のPython版です。 2. 正規化「正規化」とは、同じ意味の単語を統一的な内部表現に変換することで、テキストの比較を容易にする処理です。これによって、全角の「ネコ」や半角の「ネコ」やひらがなの「ねこ」を同じ単語として処理できるようになります。 「Sudachi」では、この「正規化」の機能が提供されています。 3. Sudachiの単語の正規化「Sudachi」の、以下のような単語の正規化を提供します。 (1) 送り違い : 【例】打込む → 打ち込む (2) 字種 : 【例】かつ丼 → カツ丼 (3) 異体字 : 【例】附属 → 付属 (4) 誤用 : 【例】シュミレーション → シミュレー

    SudachiPy による自然言語処理の正規化|npaka
  • 1