[B! 文字コード] hat_teejayのブックマーク

シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら

hat_teejay 2014/08/28

リンク

Unicode版文字コード表

こちらで、ありそうでなかなか見つからないUnicode版文字コード表を作ってみました。当初作っていたものは65536文字表示するようにしていたので非常に重かったのですが、4096文字ずつ表示できるようにして多少は軽くなったと思います。ただし一覧性は損なわれてしまったのですが・・・。65536文字を一度に表示する場合は、こちらにお進みください。（表示が完了するまで少々時間がかかります。）なお、使い方はこちらをご覧ください。

hat_teejay 2013/07/03

リンク

第7回■文字エンコーディングが生み出すぜい弱性を知る

文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。文字エンコーディングに依存する問題をさらに分類すると2種類ある。（1）文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と，（2）文字エンコーディングの処理が不十分なためにぜい弱性が生じることがある点だ。不正な文字エンコーディング（1）――冗長なUTF-8符号化問題まず，（1）の不正な文字エンコーディングの代表として，冗長なUTF-8符号化問題から説明しよう。前々回に解説したUTF-8のビット・パターン（表1に再掲）を見ると，コード・ポイントの範囲ごとにビット・パターンが割り当てられているが，ビット・パターン上は，より多くのバイト数を使っても同じコー

hat_teejay 2009/03/04

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

文字コードに関するhat_teejayのブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (3)

文字コードに関するhat_teejayのブックマーク (3)

シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

Unicode版 文字コード表

第7回■文字エンコーディングが生み出すぜい弱性を知る

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Unicode版文字コード表