タグ

Bookとunicodeに関するseuzoのブックマーク (5)

  • Amazon.co.jp

    seuzo
    seuzo 2013/05/08
    それでも★みっつ!
  • IVS本へのツッコミ・まとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)の非公式正誤表のようなもの*1。第1章と第2章はWindows 8の話なので、見ていない箇所もある。間違いの量に興味がある方は、最初から読まずに、第4章(時系列的にはこれが最初のエントリ)あたりからどうぞ。 IVSへのツッコミ 第2章までへのツッコミ 第2章番外編「先生怒らないからリュウミンは手を挙げなさい」 第3章へのツッコミ 第4章へのツッコミ 第5章へのツッコミ 第5章番外編「この「邉」を作ったのは誰だぁ!!」 巻末付録の文字コード表へのツッコミ 関連するかもしれないエントリ セミナーでMicrosoftの人に質問するためのアンチョコ IVSアドインをインストールしてみたよ *1:さまざまな人からの情報をベースにしています。個々にお名前を挙げることはしませんが、皆さんありがとうございます!

    IVS本へのツッコミ・まとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    seuzo
    seuzo 2013/05/08
    まとめ
  • IVS本へのツッコミ・付録の「文字コード表」編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)へのツッコミ第2弾。このは、巻末に付録として2つの文字コード表を掲載しており、ページ数では全体の約半分に及ぶのだが、これらの表にもいろいろ問題があるように思う。 「USC」が215回出現 2つの文字コード表のうち「文字符号対応表(CP932とJIS文字コード)」(pp.218-325)のほうから見ていくこととする。 まず、全ページで(100ページ以上に渡って)「UCS」が「USC」になっている。 フォントの問題 「IPAmj明朝」欄の表示に使われているのはIPAmj明朝ではなくIPAex明朝だと思う(下図を参照)。 ちょっとわけがわからない。 「IPAmj明朝」欄の0x02から0x1b(制御文字領域)に記号や罫線素片が入っているが、IPAmj明朝にもIPAex明朝にも、このような文字は入っていない。 フォールバックで別のフォン

    IVS本へのツッコミ・付録の「文字コード表」編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)を読んでいたら、いくつか気になる点があったので、まとめてみることにした。とりあえず、第4章(37ページ分)だけ。時間と気力があれば、今後、他も追加していくかも*1。組版上の突っ込みは(ひどい例以外は)省いた*2。 p.103 ISO/IEC 8859は《中略》パート16まで定義されています(パート15は破棄)。 破棄されたのはパート12。 p.104 「ISO-10646」の文字集合 「ISO-10646」→「ISO/IEC 10646」。 たとえば、1面19区75点を符号位置とする文字をシフトJISで8ビット符号化した場合0x8A6Bとなる文字を例に見てみましょう。この文字は、葛飾区の「葛」という文字ですが 「葛」はシフトJISで「0x8A6B」ではなく「0x8A8B」。 p.106 「U+000000」→「U+0000」(U

    『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 「文字コード技術入門」制作で直面した文字コード問題 - yanok.net

    書 (「プログラマのための文字コード技術入門」)の原稿はコンピュータ上でテキストエディタを使って書いています。そうすると、文字コード値の羅列として文を表現することになります。 書には、「ト゚」や「か゚」のようにUnicodeで合成の必要な文字や「𩸽」のようなBMP外の符号位置にある文字、あるいは「海」のようにUnicodeの正規化処理で別の符号位置に置き換わってしまう文字などがふんだんに盛り込まれています。 このため、書の執筆・編集において、まさに文字コードの問題に直面することになりました。 私が執筆に使っているのはEmacs 22です。このエディタでは、テキストをEUC-JIS-2004 (Emacsのcoding system名としてはeuc-jisx0213)として保存している分にはいいのですが、UTF-8として保存しようとすると、「か゚」のように結合文字を使う文字については

  • 1