id:otn:20090429 と id:otn:20090630 と id:otn:20090823 の続き。 一旦解決したかに思った、MechanizeのUTF8以外のページの処理ですが、昨日、「mixiの各コミュニティーの最新トピック一覧作成」処理がこけたので調べてみると、№ (1文字の"No.")の文字の所でページが終わったかのごとく処理されてました。 やっぱり、「JIS範囲外の文字が混じったEUC-JPのページ」がうまく処理されないようです。「そもそもそんなものは存在してはいけない」という突っ込みは、mixiの方にお願いします。 ですが、nkfだとちゃんと 1文字の"No." とか 丸付き数字 もEUC-JPからUTF-8に変換できます。ページの文字コード変換はMechanizeじゃなくてNokogiriがしていますが、iconv を使っている。iconvで 丸付き数字 を変換し