タグ

資料と文字コードに関するindicationのブックマーク (5)

  • 文字コード | 衆議院議員 河野太郎公式サイト

    2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

    文字コード | 衆議院議員 河野太郎公式サイト
    indication
    indication 2023/05/12
    職権修正という大変な仕事を地道に続けたおかげかも。現存しなくても維持しないといけなものは、どうするのだろう。
  • Unicode 版美乳テーブルを探せ

    美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。 逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

    indication
    indication 2021/04/04
    先頭から読まないといけない事にはじめて気づいた(テーブルを必死に探した)
  • [PDF]新元号名で使用する文字コードについて(周知)(平成31年4月5日経済産業省事務連絡)

    indication
    indication 2019/04/16
    せめて一週間早くほしかったな →4/5交付で気付くのが遅かったorz
  • char8_tによせて - なるせにっき

    C++標準化委員会、ついに文字とは何かを理解する: char8_tという記事が話題だってので、つらつらと書いてみました。 「グリフ」について グリフ(glyph)という言葉の定義をめぐって でも触れられていますが、「グリフ」という言葉が「字体」を指すのか「字形」を指すのかってのは議論がありますね。文字コードの文脈では普通「字形」の意味だとして話を進めることが多いように思います。 CJK統合漢字について Wikipediaの記事にまとまっていますが、実際に推進していたのは中国みたいですね。うまくやればあんまり問題なかったんでしょうが、あんまりうまく行かなかったんですが、それでも国ごとにその国の過去にあった文字コードとの互換性は取れているので、実際の所CJK統合漢字ってあんまり問題にはなってないと思うんですよね。中国フォントと日フォントを切り替えないといけないって問題はありますけど、それ

    char8_tによせて - なるせにっき
    indication
    indication 2018/12/24
    utf8_tがあれば解決(ちがう)
  • 全角チルダ問題

    株式会社メルカリ様で行われた第2回CircleCI ユーザーコミュニティミートアップでの資料です。 #circlecijp

    全角チルダ問題
    indication
    indication 2014/07/07
    誰かが、文字コードで人生が無駄になると言っていたように思う。しかしながら、よい資料。
  • 1