タグ

charcodeに関するdlive1のブックマーク (6)

  • UTF-PNG (aka Unicolor) : 404 Blog Not Found

    2007年03月11日03:00 カテゴリLightweight Languages UTF-PNG (aka Unicolor) たしかにこれは普通の奴らの上ですね。 404 Blog Not Found:シフトJISを残すべきか? - matzさんのコメント 新しいUnicode符号化方式 http://nowsmartsoft.or.tv/nws/Japanese/new_utf.htm にはしびれました。気で実装しているところがすばらしい。 こちらでは、普通の奴らの下を目指してみました。 名づけて、UTF-PNG。別名Unicolor Encoding. Perlによる実装は、 です。エンコーダーは 、デコーダーは です。コンパクトでしょ? Unicodeの全キャラクター一文字づつ載せると100万文字以上になりますが、それでもこれくらいに収まります。 そう。何のことはない、Uni

    UTF-PNG (aka Unicolor) : 404 Blog Not Found
  • 新しいUnicode符号化方式

    新しい文字符号化方式 戻る リンク 文字符号について ユニコード UTFCP UTFCP2 UTFCP-TABLE 文字符号化方式比較 文字コード用語 UTFCPとUTF-JP 新しいUNICODE符号の必要性 UTF8では、日語に対応する文字(ひらがな、カタカナ、全ての漢字)の符号長が3バイトです。一方、Shift_JISやEUCでは、2バイトで表せます。この意味で、UTF8は、今までの文字コードよりもある意味において改悪されています。この事情は、他国の文字に置いても同様で、例えば、中国語の文字(漢字)においても、今まで2バイトで表せていた物が、UTF8では、3バイト必要になります。これは、欧米/中東圏以外の世界のあらゆる国や言語の文字において言えます。今まで2バイトで余裕を持って扱えていたものを、突然3バイトで扱わなければならないと言われれば、誰でも納得しがたいものでしょ

  • Unicodeエスケープ - sawatのブログ

    付箋紙Greasemonkeyで、GM_setValueに登録した日語の文字化け対策にencodeURIをつかったけど、encodeURIはURIをエンコードするための関数なのであんまり褒められた使い方ではないですね。しかも、encodeURIのようなURLエンコーディングは文字列をUTF-8にしてから、エンコード対象の各バイトを%xx形式*1で表現するので、日語1文字をあらわすのにたいていの場合ASCII9文字が必要になって効率が悪いです。*2 なので、前述のような単に非ASCII文字をエスケープしたいだけのようなケースではUnicodeエスケープを使った方がよいです。Javaのpropertiesとかnative2asciiとかのやつです。 Unicodeエスケープは\uxxxx*3の形式であらわすので、たいていの日語1文字はASCII6文字になって、URLエンコーディングに比べ

    Unicodeエスケープ - sawatのブログ
    dlive1
    dlive1 2007/03/11
    非ASCII文字をエスケープする場合、Unicodeエスケープがいい。Javaのproperties,native2ascii。URLEncodingより容量2/3ぐらいになるし。で、Javascriptでは標準関数でないのでStringのコールバック付きreplaceメソッドを使って実装 という話
  • ウノウラボ Unoh Labs: 日本語とPHP

    yamaokaです。 PHPで日語を扱う場合、mbstringモジュールを利用する場合が多いと思います。 日語に特有の機能(カタカナの全角/半角変換など)も備わっていて、とても便利です。 しかし、日以外ではmbstringモジュールはあまり利用されていないようです。 代わりに利用されているのがiconvモジュールで、 最近話題のフレームワーク、symfonyでも 国際化の機能を実現するために内部で利用されています。 iconvモジュールはPHP 5でPHP体に組み込まれました。 別途用意して組み込む必要があるmbstringモジュールと違って、最初から使用できるので便利ですね。 PHPのマニュアルのiconv関数のページを見ると、 いくつかの関数が定義されているのがわかります。 それぞれ、mbstring関数との 対応表を作ってみました。 iconv関数mbstring関数

    dlive1
    dlive1 2007/03/06
    PHPで日本語を使うとき、mbstringモジュールが色々付いてて便利だよ。しかし日本以外ではiconvモジュールが使われてるので対応表作ったよという話。
  • kawatarou.info domain is for sale | Buy with Epik.com

    This domain not actively for sale, but will consider reasonable offers

    kawatarou.info domain is for sale | Buy with Epik.com
    dlive1
    dlive1 2007/02/26
    OperaのメーラM2でのオープンメールからの文字化けについて。EdMaxと秀丸メール、Outlook、Hotmail、YahooMail、OperaWebMailからくるのはやばいですよという話
  • UTF-8 エンコーディングの危険性 - WebOS Goodies

    的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。 例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです(昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

    dlive1
    dlive1 2007/02/23
    単純にデコードすると ASCII コードと同じ値になってしまうマルチバイトコードが存在するため、注意が必要。まともな国際Liblaryを使えば大丈夫。iconvを使ってUCFに変換してみることで確認できる。
  • 1