タグ

ブックマーク / elbeek.blog.fc2.com (1)

  • 黄金螺旋階段の最の果て PythonでMecab文字化け

    PythonのMeCabの文字化けでひどい目にあったので記事に残しておきます。 実行環境:Scientific Linux6 (UbuntuでもCentOSでも関係無かったかもしれない) 理由:不明 症状:文字化け(昔の記事と同じ) 結論:MeCabの辞書構築がうまくいっていなかった。リビルドで直った。 ↓文字化け具合↓ >>type(MeCab.Tagger().parse("文字化けが存在するからry") <type 'str'> と表示される。実行結果から返ってくる文字コードがよくわからないので、とりあえず代表的な"utf-8","shift-jis","euc-jp","iso2022-jp","cp932"どれでデコードしてもエラーが返ってきた。 ここで文字コードを自動検出してくれるchardetモジュールをインストールした。 #easy_install chardet そして再

  • 1