[B! 文字コード][文字] tekimenのブックマーク

tekimen id:tekimen

文字コードと文字に関するtekimenのブックマーク (8)

文字ときどきRuby / Character and Ruby (NSEG)
MySQL徹底入門第4版 - ユーザー管理とか文字コードとか / MySQL Book 4 - User and Charset
tekimen 2024/01/29
文字

ruby

文字コード

Unicode
リンク
コモンエイジ：文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞
行政機関が管理する膨大な数の「文字」がデジタル改革を阻んでいる。字形がわずかに異なる文字も含め、戸籍だけで約70万字。岸田文雄政権は自治体の情報システムを効率化するため、約7万字に絞り込む計画だ。だが、人によっては名前の漢字が変わる可能性があり、慎重論もくすぶる。文字を決めるのは誰なのか――。スマホに表示できない「スマートフォンやパソコンで表示できない文字がある。魑魅魍魎（ちみもうりょう）とした世界だ」デジタル庁幹部は、戸籍などで使われてきた文字の特異性をそう表現し、「自治体システムを複雑にし、ガラパゴス化させた元凶だ」と言い切った。政府は、自治体ごとに仕様がばらばらな戸籍や住民基本台帳、国民年金など20業務の情報システムを2025年度末までに標準化する方針を掲げている。人口減少で公務員の確保が難しくなる中、システムの効率的な運用で行政サービスの質を維持する目的だ。多すぎる文字を
tekimen 2024/01/05
文字

行政

Unicode

文字コード

漢字
リンク
Unicodeのgrapheme cluster (書記素クラスタ) | hydroculのメモ
Unicodeのgrapheme cluster (書記素クラスタ) 2015/10/25 Unicodeテキストを1文字ずつ分割するアルゴリズムをUnicodeの仕様として定められており、grapheme cluster (書記素クラスタ)と呼ばれる。普通はUnicodeのコードポイント1つずつ文字が割り当てられているので、ほとんどはコードポイント1つが1文字になるのだが、たまにコードポイント2つ以上で1文字になるものもあり、 1文字ずつテキストを分解するのは意外と複雑なルールになる。 Grapheme cluster について書かれている公式のドキュメントは以下にある。 Unicode® Standard Annex #29 UNICODE TEXT SEGMENTATION http://unicode.org/reports/tr29/ この記事は公式ドキュメントを読んで理解した
tekimen 2023/12/28
Unicode

文字

文字コード
リンク
ISO/IEC 10646（≒Unicode）でなぜ「ゴミ文字」が増えていくのか?
小形克宏 @ogwata 日本の携帯絵文字を収録する国際会議に出席した話のつづき。この件は書こうか迷ったけど、書いておこう。ISO/IEC 10646（≒Unicode）で構造的に「ゴミ」文字が増えていく件。おかしな点があればぜひご指摘ください。 2010-04-25 23:46:39 小形克宏 @ogwata 一昨日のツィートで、WG 2会議は「対立を前提とした共同作業」だと書いた。自分が通したい主張を相手に呑ませるため、可能な限り妥協する。「ISO/IEC 10646のより良い改訂」という目的から、妥協は美徳とされる。互いに妥協しながら落し所を探る。これがWG 2会議の流儀だった。 2010-04-25 23:52:40
tekimen 2023/12/18
Unicode

文字コード

絵文字

文字

漢字
リンク
UTF-32 でも固定長で処理出来るわけではない
AC_2017-12-08.md UTF-32 でも固定長で処理出来るわけではない 2024/04/17 更新この記事は、自作OS Advent Calendar 2017の 12/8 の記事として書かれました。もう、日本語の漢字や仮名を 2 バイト文字と呼ぶのは、やめよう IT 系のニュースサイトでも、未だに日本語の漢字や仮名のことを 2 バイト文字と呼んでいる記事が散見されます。 2017 年現在、UTF-8 という Unicode の符号化方式が主流で、日本語の漢字や仮名は 3 バイト～ 4 バイトで表現されることが多く、後述する結合文字や異体字セレクタのようなものまで含めると、さらにバイト数は増加します。日本語の漢字や仮名を 2 バイト文字と呼ぶことは適切ではありません。 Unicode の UCS-2 Unicode の規格が始まったばかりの頃は、世界の文字を 2 バイトで表
tekimen 2023/10/10
コード

プログラミング

文字

Unicode

文字コード
リンク
[Unicode]スペース以外の見えない空白文字の一覧 | 404 motivation not found
目次はじめにスペースや全角スペースのような空白文字一覧参考にしたサイトはじめにスペースや全角スペース以外にもいくつか存在する目に見えない Unicode の文字の一覧です。スペースや全角スペースのような空白文字一覧ブラウザや環境によっては表示されない場合があると思います。 Unicode 実体説明 description
tekimen 2023/09/28
Unicode

文字コード

文字

プログラミング
リンク
文字って何かね？ - Qiita
元ネタ: 「文字列を文字の列とみなす単純化」ってどういうこと？解説編 - 西尾泰和のはてなダイアリー Shift JISおじさん（半角文字は1バイト、全角文字は2バイト派）今どきShift JISもないだろうと思いますが、レガシーな業務システムなんかだと割と普通に残っていますね。 C#でShift JISな文字を扱いたければ、System.Text.Encodingクラスを使っていろいろすればいいです。 var text = "あいう"; var enc = System.Text.Encoding.GetEncoding("Shift_JIS"); // コードページ932でも可。 // 日本語WindowsならDefaultプロパティでもいい。 var bytes = enc.GetBytes(text); 後で書きますが、C# のchar型やstring型はUnicodeをベースに
tekimen 2023/09/27
文字

コード

Unicode

文字コード

漢字

絵文字
リンク
池田証寿の雑文
- 1 user
- hdic.jp
- 暮らし
池田証寿/shikeda@Lit.Let.hokudai.ac.jp 目次もじれたページ JIS X 0213:2000以降 JIS X 0213:2000まで JIS X 0208:1997まで以下には、Webに公表した雑文を中心に、学会誌等に公表した論文を加えて掲げた。 JIS X 0213:2000以降「表外漢字字体表（案）」寸見 2000年10月18日のJCS委員会、2000年10月21-22日の活字字体史研究会で発表し、若干の修正を加えた上で国語審議会に提出した。「表外漢字字体表」の答申が出た段階では、いまさらの感があるが、2000年10月の時点で私が何をしたかを記録する意味でここにおいておきたい。なお、「表外漢字字体表（案）」基礎データ(hyogai.txt）もある。2001年6月2日公開。 JIS 漢字の参考文献案内 2001年2月15日作成。『国書総目録』の漢字につ
tekimen 2023/09/23
文字

文字コード
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx