自然言語処理の前処理として全半角の変換を行うことが多いと思いますが、その際に便利なmojimojiというライブラリについて学習します。全半角処理ができるライブラリは色々あるのですが、その中でもmojimojiは処理が比較的高速である点に特徴があります。 インストールは以下の通りpipで行います。一部のlinuxではgcc-c++がインストールがなくエラーが出るかもしれません。ページ下部の補足を参照してください。 pip install mojimoji では使い方について見ていきましょう。 全角から半角へ変換する その名もズバリzen_to_hanメソッドを使用します。kana、digit、asciiというオプションをキーワード引数で指定すると、カナ、数字、アルファベットの無効化を指定することができます。 import mojimoji text = "python パイソン 1000"