Hey—we've moved. Visit The Keyword for all the latest news and stories from Google
Summary This annex describes normalization forms for Unicode text. When implementations keep strings in a normalized form, they can be assured that equivalent strings have a unique binary representation. This annex also provides examples, additional specifications regarding normalization of Unicode text, and information about conformance testing for Unicode normalization forms. Status This documen
BlackHat Japan Briefings(以下BlackHat)では、セキュリティ関連の様々な話題に関するセッションが開かれたが、中には「よくもまあこんな方法を考えた」というようなものも数多い。本稿ではそんなセッションの中からいくつかをピックアップしてご紹介する。 見えない文字の混入によるフォレンジック回避策 最初にご紹介するのは、ネットエージェントの伊原秀明氏による「国内のフォレンジック」。一般に英語圏では文字コードというとほとんどASCIIコードのみを意識していればいいのに対し、日本語ではJIS(ISO-2022-JP)やEUC-JP、シフトJISなど多様な文字コードを意識しなければならない上、最近ではUnicodeに対応したソフトもかなり増えてきており、それを利用してフォレンジックを回避するような方法も開発されてきているという。そこで伊原氏はそれらのフォレンジック回避手法と、
Unicodeでは,複数の文字から1つの文字を合成する仕組みがある。例えば,ヨーロッパの言語で使われているアクセント付きのアルファベットを表現するのに使われる。日本語の濁点/半濁点付きのカタカナ/ひらがなにも,この仕組みがある。例えば,「ぱ」という文字は,「ぱ」(キャラクタ・コードはUTF16で3071)という2バイトの文字と,「は」(同306F)と文字合成用半濁点「゜」(同309A)を組み合わせた4バイト文字の,2種類が存在する。そのため,濁点/半濁点付きの文字を検索する場合,2バイトの単独文字と4バイトの合成文字の両方を検索する必要が出てくるなど,文字列処理が多少面倒になる可能性がある。今回はこの合成文字について,.NETでの処理を調べた。 最初に断っておくが,キーボードからは文字合成用の「゜」(キャラクタ・コードは309A)は入力できない。入力できるのは,キャラクタ・コードが309C
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く