※2017/11/07追記: こちらはPython2に関する記事です。Python3の場合このエラーに悩まされることはありません。 以下のエラーと戦った話。 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 0: ordinal not in range(128) 結論だけ言うと、 str型とunicode型を混ぜるな!っていう話。 scikit-learnを使って文章をクラスタリング 今回は、以下の記事を参考にして、ある配列を中身のテキストでクラスタリングしようとして起こった。 http://blog.parosky.net/archives/2212 この記事のanalyzer(文章を単語の配列に区切る関数)を自作して、 #feature extractionの部分まで書いたのがこれ これでテストを