タグ

文字コードに関するnantanのブックマーク (7)

  • JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

    Intro textarea などに入力された文字数を、 JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID

    JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
  • Unicodeエスケープシーケンス変換ツール

    Unicodeエスケープシーケンス変換ツールを公開します。 1.Unicodeエスケープシーケンスとは 「Unicodeエスケープシーケンス」とは、Unicodeの文字を表すためのもので、6つのASCII文字で構成されます。 「6つのASCII文字」は、具体的には「\u(または\U)」という2文字と、その後に続く4桁の16進数で構成され、これで1つのUnicode文字を表します。 例えば、「あ」という文字はUnicodeエスケープシーケンスで「\u3042」と表現されます。 2.Unicodeエスケープシーケンス変換ツール ということで、Unicodeエスケープシーケンス変換ツールを作ってみました。 上のテキストエリアに元の文字を入力して「エスケープ」をクリックすれば、下のテキストエリアにUnicodeエスケープシーケンスが表示されます。 また、下のテキストエリアにUnicodeエスケープ

  • URL エンコード/デコードフォーム

    URL エンコードされた文字列をデコード、もしくは文字列を URL エンコードします。 EUC-JP、SJIS (シフト JIS)、JIS、UTF-8 に対応しています。 2008-01-30、 軽快なバージョンを用意しました。 2009-12-30、Firefox の検索バーからデコードできるものを公開しました。 入力フォーム 入力欄 (M) 文字列を入力してください デコードではなくエンコードする (E) エンコードする場合の文字コード (C) 送信(S) 使い方 デコード方法 「入力欄」に %A4%B3%A4%CE... のような URL エンコードされた文字列を入力し、「送信」ボタンを押すだけです。文字コードはたぶん自動認識します。 エンコード方法 「入力欄」に URL エンコードしたい文字列を入力し、「デコードではなくエンコードする」にチェックを入れます。さらに希望の文字コードを

  • http://fine.ap.teacup.com/hepo/23.html

  • Escape Codec Library: ecl.js

    日頃より楽天のサービスをご利用いただきましてありがとうございます。 サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。 お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。 メンテナンスが終了次第、サービスを復旧いたしますので、 今しばらくお待ちいただけますよう、お願い申し上げます。

  • 2010-02-14 - 未来のいつか/hyoshiokの日記

    例えば、次の言葉の意味を知りたい、聞いたことがあるけどよく分かっていないプログラマにとって、お勧めの書籍だ。Unicode/UTF-8/UTF-16/USC-2/JIS X0208/JIS X0212/JIS X0213/SJIS/EUC-JP/CP932/ISO-2022-JP/ASCII/Latin-1/ISO 10646/ISO 8859-1/サロゲートペア/文字化け/機種依存文字/半角カナ/絵文字… JIS X0208やJIS X0213の解説などは圧巻である。書籍にはWebにない利点がある。Webには即時性があるが、文字コードの解説においては、即時性はそれほど求められない。字体ないし字形の差異についてWebではその字体ないし字形がなければ表現しようがないが、書籍であれば細部までこだわって表現できる。 例えば、包摂された「辻」という字の一点しんにょうと二点しんにょうの字体の差はWe

    2010-02-14 - 未来のいつか/hyoshiokの日記
  • 文字エンコーディング毎のUnicodeマッピングの違いについて。 - Enjoy*Study

    Javaにおいて、文字コードの変換は、文字エンコーディング対Unicodeの変換表を使用して行われます。 同じ字形でも、文字エンコーディングによってUnicodeとのマッピングが異なるので注意が必要です。 文字エンコーディングによって、Unicodeとのマッピングが異なる字形について、下記の表にまとめます。 なお、下記表で「JIS X 0212」と書いてある項目以外は、「JIS X 0208」の字形となります。 参考:Enjoy×Study - 文字エンコーディング毎の収録文字の違いについて。 確認したバージョンは、Sun J2SE 1.4.2になります。 字形 ¢ £ ¬ ‖ − 〜 ― 〜(JIS X 0212) コード シフトJIS 0x8191 0x8192 0x81CA 0x8161 0x817C 0x8160 0x815C − 日語EUC 0xA1F1 0xA1F2 0xA2

    文字エンコーディング毎のUnicodeマッピングの違いについて。 - Enjoy*Study
  • 1