ブックマーク / takezoe.hatenablog.com (2)

  • クローリングハックという本を書きました - たけぞう瀕死ブログ

    同僚5名でここ1年くらい作業していた「クローリングハック あらゆるWebサイトをクロールするための実践テクニック」という書籍が翔泳社さんから発売になります。 クローリングハック あらゆるWebサイトをクロールするための実践テクニック 作者: 竹添直樹,島多可子,田所駿佑,萩野貴拓,川上桃子出版社/メーカー: 翔泳社発売日: 2017/09/14メディア: 単行(ソフトカバー)この商品を含むブログを見る 「ハック」と言っても別に怪しいことが書いてあるわけではありませんw クローラーの運用を通して世の中には一体どうやったらそうなるのか謎な挙動を示すサイトを見てきたわけですが、この書籍はクローラーを作る側にしろ、Webサイトを製作する側にしろ、理解しておくべき基的なWeb技術について解説したものです。 HTTPメソッドをちゃんと使い分けよう、ヘッダやステータスをちゃんと返そう、セマンティッ

    クローリングハックという本を書きました - たけぞう瀕死ブログ
  • MozillaのスクレイピングフレームワークFathomを試してみる - たけぞう瀕死ブログ

    こちらのOSDNの記事で知ったのですが、MozillaでFathomというJavaScript用のスクレイピングフレームワークを開発しているようです。仕事でクローラーを作ったりしていたこともあり、面白そうだと思ったので軽く調べてみました。 mag.osdn.jp 以下のGitHubリポジトリで開発されています。GitHub Pagesに詳しいドキュメントもあります。 github.com OSDNの記事で触れられている開発者のErik Rose氏のブログエントリはこちら。 hacks.mozilla.org ドキュメントやErikさんのブログエントリなどをざっと眺めてみたところ、それほど複雑なものではなく、ある程度曖昧なルールとスコアリングを定義しておき、最もスコアの高い要素の選択するというのが基的なコンセプトのようです。 なにはともあれ試してみます。まずは適当なディレクトリを掘り、np

    MozillaのスクレイピングフレームワークFathomを試してみる - たけぞう瀕死ブログ
    shogo_okamoto
    shogo_okamoto 2017/05/03
    これは何をスクレイピングするかというと、Webページから本文=主題を抽出することを目的としているのではないかと思いました。それを「ウェブサイトから意味を抽出する」と呼んでいるようです。
  • 1