タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

anemoneに関するinouetakuyaのブックマーク (1)

  • Ruby製のクローラー Anemoneの文字化け対策 - プログラマでありたい

    何度も取り上げていますが、Ruby製のクローラーであるAnemoneについてです。もう2年ほどメンテナンスされていないものの、Rubyの中のクローラー・フレームワークとしては未だに一番の完成度です。しかし、残念ながら幾つかの問題点があります。その中で日語を扱う我々にとっては一番大きな問題は、文字化けです。 Anemoneの文字化けの原因 Anemoneの文字化けの原因は、ずばりUTF-8以外の考慮が何もされていないためです。Anemoneが利用するHTMLパーサーであるNokogiriは、もともと内部的な文字コードをUTF-8として扱います。UTF-8以外の文字コードを扱う場合は、文字コードを指定して渡す必要があります。それにもかかわらず、AnemoneがHTMLをパースする時は、次のような実装になっています。 # # Nokogiri document for the HTML bod

    Ruby製のクローラー Anemoneの文字化け対策 - プログラマでありたい
  • 1