characterCodeに関するsamejimaのブックマーク (7)

  • 文字集合の包含関係とテストに使うべき文字 - miauのブログ

    先月あたりから文字コードまわりの調査をしていたので、そのことについて書こうと思ったのですが。もろもろの説明の前提としてエンコーディングに対する説明が必要で、エンコーディングの説明にはその対象となる文字集合についての説明が必要で・・・ということで、まずは文字集合についての概説です。 目的 冒頭に書いたように、私が行った文字コードまわりの調査結果を書くための前提部分の説明が目的ではあるんですが、もうひとつ目的がありまして。 Web を見てまわっていると、いくつかの文字を不適切に選んで「この文字で確認したらうまくいったから大丈夫」というように不十分な調査がなされている事例が多々ありました。せっかく調査結果をまとめてくれているのに不十分なせいで活用できない=同じ調査を再度行う、という残念なことになってしまっているので「今後調査/テストを行う際にどのような文字を抽出すればよいか」という基礎情報的なも

    文字集合の包含関係とテストに使うべき文字 - miauのブログ
  • GitHub - hamano/locale-eaw: East Asian Ambiguous Width問題のための修正ロケール

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - hamano/locale-eaw: East Asian Ambiguous Width問題のための修正ロケール
  • 二つの「え」の話

    二つの「え」の話 分離 2021年 9月12日更新 目次 あ行のえとヤ行のエ 歴史的仮名遣いとヤ行のエ え (e)・エ (je) 区分表・和語篇 え (e)・エ (je) 区分表・漢字音篇(韻別版) え (e)・エ (je) 区分表・漢字音篇(『学研漢和大字典』における頁順版) え (e)・エ (je) 区分表・漢字音篇の解説 YEは拗音として使われたか いろはとEとYE 削除 フォント 𛀁𛀀の技術情報 更新履歴 /eyeben/ 以下の頁に関するお問い合わせはまでどうぞ。

    samejima
    samejima 2010/08/03
    eとyeの違い
  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
    samejima
    samejima 2010/03/01
    異体字の表現方法
  • 人名用漢字 | 三省堂 WORD-WISE WEB -Dictionaries & Beyond-

    (短期集中連載)「いちかっこ」「いちまる」の広がり NEW! 「いちかっこ」「いちまる」の広がり その3 NEW!新着記事

    samejima
    samejima 2010/02/17
    安岡孝一氏のコラム
  • iconvの「UTF-8」はBOMが無いものとみなす - yanok.net

    文字コード変換プログラムのiconvでは、文字コード「UTF-8」において、入出力ともにBOMを用いません。 出力においてBOMを使わないということは、すぐに納得がいくことと思います。UTF-8として出力されるバイト列の先頭にBOMがつかないということです。 かたや、入力においてというのがどういうことかというと、BOMに相当するバイト列を 見ても、それをBOMとは認識しないということです。 つまり、データ先頭にEF BB BFという3バイトがあったら、それをBOMとして消費するのでなく、単なる普通の1文字のように扱うのです。 ちょっと実験してみましょう。 UTF-8にBOMを付けて出力するプログラムとしてポピュラーなのはWindowsのメモ帳です(XPで確認)。メモ帳でUTF-8としてテキストを保存するともれなくBOMがついてきます。 例えば、メモ帳で「あ」とだけ書いて改行し、UTF-8

    samejima
    samejima 2010/02/05
    入力のBOMはBOMではなく文字とみなす
  • Emacs22 + UTF-8 における文脈依存な文字幅の問題について

  • 1