タグ

クローラーに関するtyosuke2011のブックマーク (8)

  • 検索エンジンのインデックスを早める為に必須!XMLサイトマップの基本を解説

    SEO対策にはさまざまな手法がありますが、そのうちのひとつが「XMLサイトマップの設置」です。 設定するかしないかで、検索エンジンのクローラーが回遊するスピードが大幅に変わります。 これは検索結果に表示されるスピードや順位が安定するスピードに大きく影響を与えます。 今回は、SEO内部対策をする上で絶対に知っておきたいXMLサイトマップの基礎知識を解説します。 設置方法も併せてご紹介しますので、この機会に再確認しておきましょう。 このニュースを読んだあなたにオススメ クローラーにホームページを巡回させよう 実店舗オーナーがすぐに出来るGoogleマップに表示させるための3つの対策方法 ロングテール戦略を理解して売上げアップ XMLサイトマップとは XMLサイトマップとは、ホームページ内の各ページのURLや優先度の高さ、更新日、更新頻度などを記述したXML形式のファイルです。 検索エンジンのク

    検索エンジンのインデックスを早める為に必須!XMLサイトマップの基本を解説
  • robots.txtの書き方と設置方法

    Googleなどの検索エンジンはリンクを辿ってサイトをクロールしインデックスしていきますが、robots.txtを使用すると検索エンジンに対してサイトの中の特定のファイルやディレクトリをクロールしないように要望を出すことができます。ここではrobots.txtの使い方と実際の記述方法について解説します。 robots.txtとは 検索エンジンなどは検索エンジンロボットやクローラーと呼ばれるプログラムを使ってインターネットで公開されているサイトの情報を集めています。公開されているページはクローラーにクロールされることで検索エンジンに登録され(インデックスされるともいいます)、その結果として検索結果に表示されます。 通常は公開しているページに対するクロールをブロックする必要はないのですが、サイトの中には公開はしているけれど検索結果には表示を希望しないページがある場合があります。またCMS(コン

    robots.txtの書き方と設置方法
  • Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ

    はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。 単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPythonスクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast

    Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ
  • サルでもわかるアルゴリズムの正体

    ネットを見ていると「アルゴリズム」という言葉が出てきますが、このアルゴリズムとは一体どういうものなんでしょうか? そのお話をする前にお断りですが、私はSEOの専門家ではありませんので、このページに書かれている内容はあくまで個人の推測によるものであり正確性を書いている可能性があります。その点をご了承頂いたうえで読んで頂ければと思います。 来アルゴリズムとは、コンピューターで計算を行うときの「計算方法」という意味なのですが、IT関連の情報サイト上で良く出てくるアルゴリズムというのは「Google検索のアルゴリズム」のことを指しています。 インターネットで検索する時にGoogleの検索窓に調べたいワードを入力すれば簡単に調べたいそのワードに関する情報が検索結果にズラズラっとたくさん出てきますよね。この検索結果に並んでいるサイトの順位付けをするための計算(プログラム)が「Google検索のアルゴ

  • 複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい

    最近のRubyのクローラーは、EventMachineを使って並列化するのが流行のようです。EventMachineは、非同期処理をお手軽に実装できるフレームワークです。Rubyのスレッド機能との違いは、Reactorパターンを使いシングルスレッドで実装している点です。こちらのブログが詳しいので参考になります。 「見えないチカラ: 【翻訳】EventMachine入門」 EventMachineを使うと、イベント・ドリブンの処理を簡単に実装出来ます。使い方は簡単ですが、通常の同期処理やスレッドをつかった処理に比べると、どうしてもコードの記述量は多くなります。今回の例である並列化してクローラーを走らせるという用途であれば、短時間で多くのサイトにアクセスするのが目的です。イベント・ドリブンで並列化処理を実装するのが目的ではないはずです。その辺りの面倒くさい処理を実装したライブラリがcosmic

    複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい
  • 『Rubyによるクローラー開発技法』を書きました - プログラマでありたい

    勉強会やスライドで紹介していましたが、Ruby×クローラーという題材で、『Rubyによるクローラー開発技法』というを書かせて頂きました。RubyEmacsの鬼であるるびきちさんとの共著です。 Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 作者: るびきち,佐々木拓郎出版社/メーカー: SBクリエイティブ発売日: 2014/08/25メディア: 大型この商品を含むブログ (1件) を見る このを書いた理由 そもそものキッカケは、るびきちさんのエントリーにある通り、SBクリエイティブの編集者さんが、クローラーの作成経験のある人を探していて、私の書いた「オープンソースのRubyのWebクローラー"Anemone"を使ってみる」を読んで打診してくださったというのが始まりです。 私自身も、Webからデータを収集して分析するということは、趣味として長年やってきました。一

    『Rubyによるクローラー開発技法』を書きました - プログラマでありたい
  • Pythonでかんたんスクレイピング (JavaScript・Proxy・Cookie対応版)

    ソース 以下のようになると思います. スクレイピングしたいページのURLと出力ファイル名を指定すると,ページのタイトルなどがJSON形式で帰ってくる仕組みです. 関数scraping体です. import sys import json import requests from bs4 import BeautifulSoup import codecs def scraping(url, output_name): # get a HTML response response = requests.get(url) html = response.text.encode(response.encoding) # prevent encoding errors # parse the response soup = BeautifulSoup(html, "lxml") # extra

    Pythonでかんたんスクレイピング (JavaScript・Proxy・Cookie対応版)
  • wgetが超絶便利なwebクローラー、クローリングツールだとは知らなかった・・・!

    2013/04/08 この記事は書かれてから1年以上が経過しており、最新の情報とは異なる可能性があります techwgetCrawler ええ、知りませんでした。無知もいいところです・・・。 webコンテンツをざっくりローカルで見られるようにしたいなー。と思って、いろいろぐぐってました。 基点のURLからリンクやらリソースやらを辿って、それらをすべて落としてきて、 そこからさらにパスとかを変換してやればいいのかなーとか思っていたのですが、 ぐぐってみると、もうすでに 全部やってくれる便利なコマンドがある のではないですか。 それが、wget というソースコードをダウンロードするのによく使うコマンドだったことに驚きでした。 ちなみに mac は入ってないっぽいのでさくっと入れました。 brew install wget 普通の使い方は、wget のあとにダウンロードしたい URL を続けて引

    wgetが超絶便利なwebクローラー、クローリングツールだとは知らなかった・・・!
  • 1