タグ

文字コードと文字に関するtekimenのブックマーク (8)

  • 文字ときどきRuby / Character and Ruby (NSEG)

    MySQL徹底入門 第4版 - ユーザー管理とか文字コードとか / MySQL Book 4 - User and Charset

    文字ときどきRuby / Character and Ruby (NSEG)
  • コモンエイジ:文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞

    行政機関が管理する膨大な数の「文字」がデジタル改革を阻んでいる。字形がわずかに異なる文字も含め、戸籍だけで約70万字。岸田文雄政権は自治体の情報システムを効率化するため、約7万字に絞り込む計画だ。だが、人によっては名前の漢字が変わる可能性があり、慎重論もくすぶる。文字を決めるのは誰なのか――。 スマホに表示できない 「スマートフォンやパソコンで表示できない文字がある。魑魅魍魎(ちみもうりょう)とした世界だ」 デジタル庁幹部は、戸籍などで使われてきた文字の特異性をそう表現し、「自治体システムを複雑にし、ガラパゴス化させた元凶だ」と言い切った。 政府は、自治体ごとに仕様がばらばらな戸籍や住民基台帳、国民年金など20業務の情報システムを2025年度末までに標準化する方針を掲げている。 人口減少で公務員の確保が難しくなる中、システムの効率的な運用で行政サービスの質を維持する目的だ。多すぎる文字を

    コモンエイジ:文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞
  • Unicodeのgrapheme cluster (書記素クラスタ) | hydroculのメモ

    Unicodeのgrapheme cluster (書記素クラスタ) 2015/10/25 Unicodeテキストを1文字ずつ分割するアルゴリズムをUnicodeの仕様として定められており、grapheme cluster (書記素クラスタ)と呼ばれる。 普通はUnicodeのコードポイント1つずつ文字が割り当てられているので、ほとんどはコードポイント1つが1文字になるのだが、たまにコードポイント2つ以上で1文字になるものもあり、 1文字ずつテキストを分解するのは意外と複雑なルールになる。 Grapheme cluster について書かれている公式のドキュメントは以下にある。 Unicode® Standard Annex #29 UNICODE TEXT SEGMENTATION http://unicode.org/reports/tr29/ この記事は公式ドキュメントを読んで理解した

  • ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?

    小形克宏 @ogwata 日の携帯絵文字を収録する国際会議に出席した話のつづき。この件は書こうか迷ったけど、書いておこう。ISO/IEC 10646(≒Unicode)で構造的に「ゴミ」文字が増えていく件。おかしな点があればぜひご指摘ください。 2010-04-25 23:46:39 小形克宏 @ogwata 一昨日のツィートで、WG 2会議は「対立を前提とした共同作業」だと書いた。自分が通したい主張を相手に呑ませるため、可能な限り妥協する。「ISO/IEC 10646のより良い改訂」という目的から、妥協は美徳とされる。互いに妥協しながら落し所を探る。これがWG 2会議の流儀だった。 2010-04-25 23:52:40

    ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?
  • UTF-32 でも固定長で処理出来るわけではない

    AC_2017-12-08.md UTF-32 でも固定長で処理出来るわけではない 2024/04/17 更新 この記事は、自作OS Advent Calendar 2017の 12/8 の記事として書かれました。 もう、日語の漢字や仮名を 2 バイト文字と呼ぶのは、やめよう IT 系のニュースサイトでも、未だに日語の漢字や仮名のことを 2 バイト文字と呼んでいる記事が散見されます。 2017 年現在、UTF-8 という Unicode の符号化方式が主流で、日語の漢字や仮名は 3 バイト~ 4 バイトで表現されることが多く、後述する結合文字や異体字セレクタのようなものまで含めると、さらにバイト数は増加します。日語の漢字や仮名を 2 バイト文字と呼ぶことは適切ではありません。 Unicode の UCS-2 Unicode の規格が始まったばかりの頃は、世界の文字を 2 バイトで表

    UTF-32 でも固定長で処理出来るわけではない
  • [Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found

    目次 はじめにスペースや全角スペースのような空白文字一覧参考にしたサイトはじめに スペースや全角スペース以外にもいくつか存在する目に見えない Unicode の文字の一覧です。 スペースや全角スペースのような空白文字一覧 ブラウザや環境によっては表示されない場合があると思います。 Unicode 実体 説明 description

    [Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found
  • 文字って何かね? - Qiita

    元ネタ: 「文字列を文字の列とみなす単純化」ってどういうこと?解説編 - 西尾泰和のはてなダイアリー Shift JISおじさん(半角文字は1バイト、全角文字は2バイト派) 今どきShift JISもないだろうと思いますが、レガシーな業務システムなんかだと割と普通に残っていますね。 C#でShift JISな文字を扱いたければ、System.Text.Encodingクラスを使っていろいろすればいいです。 var text = "あいう"; var enc = System.Text.Encoding.GetEncoding("Shift_JIS"); // コードページ932でも可。 // 日WindowsならDefaultプロパティでもいい。 var bytes = enc.GetBytes(text); 後で書きますが、C# のchar型やstring型はUnicodeをベースに

    文字って何かね? - Qiita
  • 池田証寿の雑文

    池田証寿/shikeda@Lit.Let.hokudai.ac.jp 目次 もじれたページ JIS X 0213:2000以降 JIS X 0213:2000まで JIS X 0208:1997まで 以下には、Webに公表した雑文を中心に、学会誌等に公表した論文を加えて掲げた。 JIS X 0213:2000以降 「表外漢字字体表(案)」寸見 2000年10月18日のJCS委員会、2000年10月21-22日の活字字体史研究会で発表し、若干の修正を加えた上で国語審議会に提出した。「表外漢字字体表」の答申が出た段階では、いまさらの感があるが、2000年10月の時点で私が何をしたかを記録する意味でここにおいておきたい。なお、「表外漢字字体表(案)」基礎データ(hyogai.txt)もある。2001年6月2日公開。 JIS 漢字の参考文献案内 2001年2月15日作成。 『国書総目録』の漢字につ

  • 1