asakura-tのブックマーク - はてなブックマーク

文字コード地獄秘話第3話：後戻りの効かないUnicode正規化 | ALBERT Engineer Blog
はじめにおっと、またまた会いましたね。文字コードおじさんです。前回、Unicodeにおける結合文字列という話題を取り上げました。思わず「いやあ、結合文字列は強敵でしたね」と口走りそうになる代物でしたが、今回はそれに関連したUnicode正規化のお話をしてみようと思います。ざっと前回のおさらい詳しいことは前回の記事をご覧いただくとして、最低限の用語についてざっくりおさらいしておきましょう結合文字列複数の文字を使って見かけ上の1文字を表現する仕組み「て（U+3066）」の後に、「濁点（U+3099）」を配置することによって「で」を表現する合成済み文字「で（U+3067）」などのあらかじめ合成されている文字 Unicode正規化結合文字列を合成済みに統一したり、合成済み文字を結合文字列にしたりする処理少々語弊がありますが、イメージがつかめればOKです。正規化の4
asakura-t 2019/04/10
CJK互換漢字の件は知らなかった／「正規化してインデックスを作る」くらいで元データはいじらなければそれほど問題ないはず？
リンク
文字コード地獄秘話第1話：Unicodeにおける全角・半角 - ALBERT Engineering Blog
ごあいさつ皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。固定観念を捨てよう「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。しか
asakura-t 2014/04/22
（記事とは直接関係ない）「全角」「半角」は存在しないという主張がありましたが（正確にはどんな感じだったっけ？）、そのままUnicodeの用語になったのだよなぁ。
リンク
1

はてなブックマーク

タグ

ブックマーク / tech.albert2005.co.jp (2)

お知らせ

月間はてなブックマーク数ランキング（2025年1月）

今週のはてなブックマーク数ランキング（2025年2月第1週）

今週のはてなブックマーク数ランキング（2025年1月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / tech.albert2005.co.jp (2)

文字コード地獄秘話 第3話：後戻りの効かないUnicode正規化 | ALBERT Engineer Blog

文字コード地獄秘話 第1話：Unicodeにおける全角・半角 - ALBERT Engineering Blog

お知らせ

月間はてなブックマーク数ランキング（2025年1月）

今週のはてなブックマーク数ランキング（2025年2月第1週）

今週のはてなブックマーク数ランキング（2025年1月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

文字コード地獄秘話第3話：後戻りの効かないUnicode正規化 | ALBERT Engineer Blog

文字コード地獄秘話第1話：Unicodeにおける全角・半角 - ALBERT Engineering Blog