タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

anemoneに関するsuzuki86のブックマーク (2)

  • Anemoneクローラー入門

    Anemoneクローラー入門 Presentation Transcript 1. Anemoneによる クローラー入門 中野 佑 1 2. About me 中野 佑(ナカノ タスク) こう見えて22歳(新卒1年目) 株式会社フィードフォース エンジニア ※決して怪しい者では ございません 2 3. 参考書 • 「Rubyによるクローラー開発 技法」 • 参考にさせていただきました • 入門から応用までわかりや すく解説が載っていました 3 4. まずは… 4 5. クローラーについて 5 6. クローラー VS スクレイピング 6 7. スクレイピングとは • Webページを解析してデータを抽出すること • HTMLを解析(parse)して、データを抽出する • 対象はWebページ1ページ全体 7 8. クローラーとは • 自動的にWebページのリンクを巡回して情報を 収集するプログラ

    Anemoneクローラー入門
  • Ruby製のクローラー Anemoneの文字化け対策 - プログラマでありたい

    何度も取り上げていますが、Ruby製のクローラーであるAnemoneについてです。もう2年ほどメンテナンスされていないものの、Rubyの中のクローラー・フレームワークとしては未だに一番の完成度です。しかし、残念ながら幾つかの問題点があります。その中で日語を扱う我々にとっては一番大きな問題は、文字化けです。 Anemoneの文字化けの原因 Anemoneの文字化けの原因は、ずばりUTF-8以外の考慮が何もされていないためです。Anemoneが利用するHTMLパーサーであるNokogiriは、もともと内部的な文字コードをUTF-8として扱います。UTF-8以外の文字コードを扱う場合は、文字コードを指定して渡す必要があります。それにもかかわらず、AnemoneがHTMLをパースする時は、次のような実装になっています。 # # Nokogiri document for the HTML bod

    Ruby製のクローラー Anemoneの文字化け対策 - プログラマでありたい
  • 1