「SudachiPy」による自然言語処理の「正規化」についてまとめました。 1. SudachiPy「SudachiPy」はワークス徳島人工知能NLP研究所が開発している形態素解析器「Sudachi」のPython版です。 2. 正規化「正規化」とは、同じ意味の単語を統一的な内部表現に変換することで、テキストの比較を容易にする処理です。これによって、全角の「ネコ」や半角の「ネコ」やひらがなの「ねこ」を同じ単語として処理できるようになります。 「Sudachi」では、この「正規化」の機能が提供されています。 3. Sudachiの単語の正規化「Sudachi」の、以下のような単語の正規化を提供します。 (1) 送り違い : 【例】打込む → 打ち込む (2) 字種 : 【例】かつ丼 → カツ丼 (3) 異体字 : 【例】附属 → 付属 (4) 誤用 : 【例】シュミレーション → シミュレー
![SudachiPy による自然言語処理の正規化|npaka](https://cdn-ak-scissors.b.st-hatena.com/image/square/187f1e253a7d40966f4d7d24ce46224934b2588f/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F97812441%2Frectangle_large_type_2_1e7532b0b093236913310a13d22e3d61.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)