[B! 文字コード][コード] tekimenのブックマーク

tekimen id:tekimen

文字コードとコードに関するtekimenのブックマーク (3)

UTF-32 でも固定長で処理出来るわけではない
AC_2017-12-08.md UTF-32 でも固定長で処理出来るわけではない 2024/04/17 更新この記事は、自作OS Advent Calendar 2017の 12/8 の記事として書かれました。もう、日本語の漢字や仮名を 2 バイト文字と呼ぶのは、やめよう IT 系のニュースサイトでも、未だに日本語の漢字や仮名のことを 2 バイト文字と呼んでいる記事が散見されます。 2017 年現在、UTF-8 という Unicode の符号化方式が主流で、日本語の漢字や仮名は 3 バイト～ 4 バイトで表現されることが多く、後述する結合文字や異体字セレクタのようなものまで含めると、さらにバイト数は増加します。日本語の漢字や仮名を 2 バイト文字と呼ぶことは適切ではありません。 Unicode の UCS-2 Unicode の規格が始まったばかりの頃は、世界の文字を 2 バイトで表
tekimen 2023/10/10
コード

プログラミング

文字

Unicode

文字コード
リンク
文字って何かね？ - Qiita
元ネタ: 「文字列を文字の列とみなす単純化」ってどういうこと？解説編 - 西尾泰和のはてなダイアリー Shift JISおじさん（半角文字は1バイト、全角文字は2バイト派）今どきShift JISもないだろうと思いますが、レガシーな業務システムなんかだと割と普通に残っていますね。 C#でShift JISな文字を扱いたければ、System.Text.Encodingクラスを使っていろいろすればいいです。 var text = "あいう"; var enc = System.Text.Encoding.GetEncoding("Shift_JIS"); // コードページ932でも可。 // 日本語WindowsならDefaultプロパティでもいい。 var bytes = enc.GetBytes(text); 後で書きますが、C# のchar型やstring型はUnicodeをベースに
tekimen 2023/09/27
文字

コード

Unicode

文字コード

漢字

絵文字
リンク
(プログラマのための)いまさら聞けない標準規格の話第2回文字コード実践編 | オブジェクトの広場
プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第2回は文字コードの実践編です。 0. 前回の復習と今回の概要システム開発で必要となる標準規格の話、前回は文字コードの概要について説明しました。ざっくりまとめるとこんな内容でした。「符号化文字集合」で文字集合と符号位置を定義し、「符号化方式」でバイト表現に変換していること。日本では、しばらく文字集合 JIS X 0208 を、ISO-2022-JP、EUC-JP、Shift_JIS の符号化方式で利用してきたこと。近年は、世界中の文字が扱える Unicode が主流となっており、UTF-8、UTF-16 などの符号化方式があること。常用漢字、人名用漢字に限っても、字体を正確に扱おうとすると、JIS X 0208 の範囲では不十分であり、JIS X 0213、Unicode、サロゲートペ
tekimen 2022/08/17
コード

文字コード

encoding

Unicode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx