[B! encoding] mumumu-tanのブックマーク

PythonのUnicodeEncodeErrorを知る - HDEラボ

Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

mumumu-tan 2015/11/04

リンク

チケット #8702: CP932系のマッピング - skf - simple kanji filter - OSDN

マッピングを調べてみました。なお、以下で比較しています。 http://nkf.sourceforge.jp/ucm/ CP932 -> Unicode において、以下のマッピング間違い # --ic=cp932 --oc=utf-8 --disable-space-convert 0x879B: U+2229 is expected, but U+222A (INTERSECTION/E288A9) 0x879C: U+222A is expected, but U+2229 (UNION/E288AA) ここで --disable-space-convert が必要なことに疑問は呈しておきます。何らかの思想があってのことなのでしょうので、強くは言いませんが。 Unicode -> CP932 について、 # --ic=utf-8 --oc=cp932 --kana-jis8 -

mumumu-tan 2010/04/08

encoding

リンク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

mumumu-tan 2009/11/30

multibyte enabled.

リンク

ワイド文字 - Wikipedia

ワイド文字（ワイドもじ、英: wide character）とは、主にC言語およびC++における文法要素で、1文字あたりのバイト数を通常より多くしたデータ型である。 C言語やC++の基本実行文字集合は通常、ASCIIのサブセットの文字種からなる。ただし実際の文字コードが何であるかは規定されていない。漢字のような拡張実行文字集合は、通常マルチバイト文字として扱われるが、1文字を構成するバイト数が可変長であり、本来1つの文字でありながら複数の文字の組（あるいは文字列）として扱わなければならないなどの不便がある。そうした問題を解消するために、1文字を1つの整数値で扱えるようにすることを目指したのがワイド文字である。 C言語では1995年の ISO/IEC 9899/AMD1:1995 より、wchar_t 型や <wchar.h>、<wctype.h> などのヘッダーファイルが追加になった。ワ

mumumu-tan 2009/11/28

1文字を1つの整数値で扱えるようにすることを目指したのがワイド文字である。マルチバイト文字を複数の文字の組として表す必要がない。wchar_t 型。内部表現は実装によって異なるため、移植の際問題になる

c++
encoding

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

encodingに関するmumumu-tanのブックマーク (4)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス