タグ

pythonに関するendo_5501のブックマーク (63)

  • マルチバイト文字列のエンコード・デコード - YAMAGUCHI::weblog

    動機 自分が書いたコードがマルチバイトに全然対応してなかった。ショック。というわけでunicodeで受け渡しするようにしました。 mixi APIで遊んでみた - YAMAGUCHI::weblog 方法 今回はPython2.5での話をしています。encode()、decode()メソッドを使えばOK。 そもそもPythonの文字列型ってなによって話なんですが、str型とunicode型の二種類があります。基マルチバイトを扱ってるときはunicode中心に考えれば上記使い方に納得です。 まずそもそもunicode型扱ってて最初に意味不明になったのは、「結局unicode型って文字コードはなんなの?」ってことなんですが、結論から言うと「どの文字コードでもない」、つまりPython独自のもの。というわけで外部とのやりとりが発生するときは必ず変換が必要。 unicodeから各種文字コードに変

    マルチバイト文字列のエンコード・デコード - YAMAGUCHI::weblog
  • 日本語文字列コード問題まとめ

    【1】   文字列コード問題との戦い Pythonに限った話ではないのですが、 日語を取り扱うコードを書いていると やっかいなエンコーディングトラブルに遭う事は少なくないでしょう。 エンコーディングトラブルとは コンパイラ・インタプリタがソースコードを解釈できない。 画面表示が化ける。 意図した入力ができない。 エンコード・デコード時にエラーがでる。 正しいファイル名のつもりなのにファイルが見つからない。 出力させたファイルの中身が読めない。 などといった現象を基としていろんな問題を引き起こします。 問題のすべては「コード変換」に発生します。 実際の文字列が何のエンコーディングで、 渡す先が何のエンコーディングを期待しているか? それらを確認して合致させるように変換をするということが基です。 【2】   「Python語版が必要」というのは誤解 P

  • 人工無脳れたす - Co-Coa Wiki

    人工無脳れたす というわけで、このプロジェクトの目的は(リアルタイムチャット向けの)人工無脳の作成ですよ。 メンバ Mitsuhiko プログラマ.これだけ放置してると,そろそろ自分の書いたプログラムが意味不明に見えてくる頃だろう. letus 中の人。IRCNetの「#Co-Coa」,「#KISC」,「#れたす」というチャンネルにいます。 2006年5月10日死亡。2006年5月13日神聖レタス誕生(適当) 配布 letus-2.3.0-release.py 使い方 まず,Python-2.3.4以降,MySQL-4.1以降とMySQL-python-1.0.0以降,MeCab-0.91とPythonバインディング,python-irclibをインストールする.MeCabはUTF-8対応でコンパイルする必要がある. letus-*-release.pyの21行目あたり,35行目あ