エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
SudachiPy による自然言語処理の正規化|npaka
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
SudachiPy による自然言語処理の正規化|npaka
「SudachiPy」による自然言語処理の「正規化」についてまとめました。 1. SudachiPy「SudachiPy」はワー... 「SudachiPy」による自然言語処理の「正規化」についてまとめました。 1. SudachiPy「SudachiPy」はワークス徳島人工知能NLP研究所が開発している形態素解析器「Sudachi」のPython版です。 2. 正規化「正規化」とは、同じ意味の単語を統一的な内部表現に変換することで、テキストの比較を容易にする処理です。これによって、全角の「ネコ」や半角の「ネコ」やひらがなの「ねこ」を同じ単語として処理できるようになります。 「Sudachi」では、この「正規化」の機能が提供されています。 3. Sudachiの単語の正規化「Sudachi」の、以下のような単語の正規化を提供します。 (1) 送り違い : 【例】打込む → 打ち込む (2) 字種 : 【例】かつ丼 → カツ丼 (3) 異体字 : 【例】附属 → 付属 (4) 誤用 : 【例】シュミレーション → シミュレー