日々、Xcode の機嫌を伺う読者諸賢の皆様、こんばんは。これは、Objective-C Advent Calendar 2012の3日目の記事です。以前、NSString な文字列から絵文字だけを除去する必要に駆られたことがあったので、不幸にも同じ事態に陥った方の為のメモを残しておきます。 サロゲートペア(代用対) NSString は UTF-16のラッパだそうで、その文字列にはデータ長が 16bit の文字と、サロゲートペアと呼ばれる 32bit の文字が混在しています。サロゲートペアは、上位 16bit が 0xD800~0xDBFF、下位 16bit が 0xDC00~0xDFFF の範囲に収まることになっていて、ある文字がサロゲートペアかどうかは、最初の 16bit を見ることで判別できます。 コードポイント(符号点) 通常、Unicode は U+ から始まるコードポイントと