タグ

anemoneに関するclavierのブックマーク (2)

  • Anemoneによるクローラー入門 | feedforce Engineers' blog

    こんにちは! 見た目30歳の新卒1年目中野です。 今回は社内でクローラーについて勉強会を行ったので、その内容について記事を書きました。 クローラーとは、WebページからHTMLを解析して周期的に情報を収集する技術です。 初心者向けの内容となっていますので、クローラーに興味があってやってみたい!という人に読んでいただきたいなと思います。 Anemoneによるクローラー入門 from Tasuku Nakano クローラーとスクレイピングについて まずはクローラーについて説明していきます。 ただ、その前にスクレイピングという技術もあるので先にそちらを説明します。 ご存知かと思いますが、スクレイピングとは、WebページのHTMLを解析してデータを抽出することです。スクレイピングはWebページ1ページに対して処理を行います。 一方クローラーは、Webページ内にある全てのリンクを巡回して、深堀りしな

    Anemoneによるクローラー入門 | feedforce Engineers' blog
  • Ruby製のクローラー Anemoneの文字化け対策 - プログラマでありたい

    何度も取り上げていますが、Ruby製のクローラーであるAnemoneについてです。もう2年ほどメンテナンスされていないものの、Rubyの中のクローラー・フレームワークとしては未だに一番の完成度です。しかし、残念ながら幾つかの問題点があります。その中で日語を扱う我々にとっては一番大きな問題は、文字化けです。 Anemoneの文字化けの原因 Anemoneの文字化けの原因は、ずばりUTF-8以外の考慮が何もされていないためです。Anemoneが利用するHTMLパーサーであるNokogiriは、もともと内部的な文字コードをUTF-8として扱います。UTF-8以外の文字コードを扱う場合は、文字コードを指定して渡す必要があります。それにもかかわらず、AnemoneがHTMLをパースする時は、次のような実装になっています。 # # Nokogiri document for the HTML bod

    Ruby製のクローラー Anemoneの文字化け対策 - プログラマでありたい
  • 1