タグ

utf8に関するnektixeのブックマーク (5)

  • Opera News

    AI New AI Feature Drop: Opera One Developer gets a new Aria access point and now... March 14th, 2024 In this week’s AI Feature Drop, early adopters using the Developer stream of Opera One can test using the Aria... AI, Opera for Android Opera for Android 81 now comes with Ask Aria and Aria Voice features for improved... March 13th, 2024 Opera for Android 81 introduces Ask Aria and Aria Voice, enha

  • IE で UTF-8 の含まれる XML が表示されなかったら - Ceekz Logs (Move to y.ceek.jp)

    Simple FON Maps の XML を生成するときに、なぜか IE でエラーが出る場合がありました(日語以外のマルチバイト文字が含まれる場合)。 テキストの内容に無効な文字が見つかりました。 IE で XML を表示しようとすると、このようなエラーが出ました。律儀なことに JavaScript 経由でもデータを読み込んでくれません。他のブラウザ Firefox, Opera では、何のエラーも出ずに読み込めたのですが…。 サポートページを調べてみると、出力データに言語仕様によって定義された有効な XML 文字範囲を超えた内容が含まれるようです。すなわち、制御文字などが混ざっているようです。 utf8::decode($str); utf8::encode($str); このように UTF-8 フラグを ON にしてから OFF にすれば解決しました。不要なバイナリを除去してるのだ

  • UTF-8N - odz buffer

    ref:某日記(中期) via:ときどきの雑記帖 リターンズ 2006年11月 ちょっと気になったので調べてみたらこんなんが出てきた。 UTF-8N? XMLと文字メーリングリスト メッセージ閲覧 大元は「Forms of Unicode」という、Unicode Consortium の President である Mark Davis が書いた文章。以下、Unicode メーリングリスト で Mark Davis が書いた文章から引用 "Note: The italicized names are not yet registered, but are useful for reference." and "UTF-8N" is italicized. It is not a registered name, and should not be used outside of a clo

    UTF-8N - odz buffer
  • 文字列と UTF-8 バイト列の相互変換: Days on the Moon

    やっていることは「高度な JavaScript 技集」の「UTF-8 <-> UTF16 変換」と同じ。 function toUTF8Octets(string) { return unescape(encodeURIComponent(string)); } function fromUTF8Octets(octets) { return decodeURIComponent(escape(octets)); } encodeURIComponent は encodeURI でもいい (むしろそのほうが処理する文字種が減って速くなりそう) が、decodeURIComponent は decodeURI にすると一部の文字 ("?"、"#" など) がデコードされなくなる。 使いどころ Base64 エンコードする関数 (「高度な JavaScript 技集」の base64encod

  • UTF-8で変換できない機種依存文字を置換する

    Summary UTF-8 のページから (株) や ローマ数字の I などの文字をメールで送信すると,文字化けする. 文字化けしそうな文字を,ad hoc に機種依存しない文字に変換する. ローマ数字もカッコで括るか,スペースを挿入したほうが良いかも. Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u

  • 1