タグ

pythonとUnicodeに関するkoma_gのブックマーク (4)

  • Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book

    先日、ビジネスパーソン向けの Python を執筆したことを書きました。 t2y.hatenablog.jp 稿では書のことを「できるPy」と呼びます。 Amazon でいくつかカスタマーレビューもいただいて次のコメントをみつけました。 python3.7 対応ということで、pathlib を使ってる点が(古いpython は切り捨てる!的なところは)潔いと言えば潔いし、日語のファイル名にも気を配っている記述はオライリーに期待するのは酷なところもある。でもこのでもNFD問題は全くの記述無し。だめだろ、それじゃ。 Amazon CAPTCHA まさに仰る通りです。執筆時にそのことに気づかずご指摘いただいてありがとうございます。 ここでご指摘されている NFD 問題というのは、ファイル名のみに限った問題ではなく、Unicode の文字集合を扱ってエンコード/デコードするときに発生する

    Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book
  • 設定ファイル

    Pythonにはとても便利な設定ファイル読み書き機能があります。決められた書式に従って記述することで、容易に設定値を得ることができます。 設定ファイルの読み込み Windowsのiniファイルのような構造で保存します。まずは設定ファイルそのものを作ってみましょう(文字コードはUTF-8です)。 # コメントアウトも出来ます [settings] host = localhost port = 12345 # 「 = 」前後にスペースがあってもなくても問題なし [system] os=Windows version=8 path= # 区切りは「 = 」でも「 : 」可 [user] name : python-izm password : 0000 mail : mail@example.com ハイライトされている部分がセクションで、セクション名を「 [] 」(大カッコ)で囲みます。セク

    設定ファイル
  • PythonのUnicodeDecodeErrorと戦った話 - ぴよぴよ.py

    ※2017/11/07追記: こちらはPython2に関する記事です。Python3の場合このエラーに悩まされることはありません。 以下のエラーと戦った話。 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 0: ordinal not in range(128) 結論だけ言うと、 str型とunicode型を混ぜるな!っていう話。 scikit-learnを使って文章をクラスタリング 今回は、以下の記事を参考にして、ある配列を中身のテキストでクラスタリングしようとして起こった。 http://blog.parosky.net/archives/2212 この記事のanalyzer(文章を単語の配列に区切る関数)を自作して、 #feature extractionの部分まで書いたのがこれ これでテストを

    PythonのUnicodeDecodeErrorと戦った話 - ぴよぴよ.py
  • PythonのUnicodeEncodeErrorを知る - HDEラボ

    Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。 特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。 そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。 なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

    koma_g
    koma_g 2014/10/15
    ハマリポイントと解法
  • 1