さて、jruby での nokogiri チュートリアルの勝手なまとめ の最終回です。 前にも書きましたように、jruby 1.5.6 は cruby1.8.7 とほぼ同等ですが、マルチバイト文字の扱いはまったく同じではありません。私は cruby1.8.7 での動作の検証はやってません。 nokogiri のバージョンは 1.4.4.2 です。 ubuntu10.04 を使用していますので、文字環境は utf-8 がデフォです。 ●整形式のマークアップ(不正の修正、厳格な適用の例) # 整形式のマークアップ # もし不正なマークアップがあれば、nokogiri は修正を試みる。 $KCODE = 'UTF8' require 'rubygems' require 'nokogiri' badly_formed = <<-EOXML foo bar EOXML bad_doc = Noko