[B! クローラー] tyosuke2011のブックマーク

tyosuke2011 id:tyosuke2011

クローラーに関するtyosuke2011のブックマーク (8)

検索エンジンのインデックスを早める為に必須！XMLサイトマップの基本を解説
SEO対策にはさまざまな手法がありますが、そのうちのひとつが「XMLサイトマップの設置」です。設定するかしないかで、検索エンジンのクローラーが回遊するスピードが大幅に変わります。これは検索結果に表示されるスピードや順位が安定するスピードに大きく影響を与えます。今回は、SEO内部対策をする上で絶対に知っておきたいXMLサイトマップの基礎知識を解説します。設置方法も併せてご紹介しますので、この機会に再確認しておきましょう。このニュースを読んだあなたにオススメクローラーにホームページを巡回させよう実店舗オーナーがすぐに出来るGoogleマップに表示させるための3つの対策方法ロングテール戦略を理解して売上げアップ XMLサイトマップとは XMLサイトマップとは、ホームページ内の各ページのURLや優先度の高さ、更新日、更新頻度などを記述したXML形式のファイルです。検索エンジンのク
tyosuke2011 2016/10/22
SEO

クローラー

ホームページ

サイトマップ

あとで読む
リンク
robots.txtの書き方と設置方法
Googleなどの検索エンジンはリンクを辿ってサイトをクロールしインデックスしていきますが、robots.txtを使用すると検索エンジンに対してサイトの中の特定のファイルやディレクトリをクロールしないように要望を出すことができます。ここではrobots.txtの使い方と実際の記述方法について解説します。 robots.txtとは検索エンジンなどは検索エンジンロボットやクローラーと呼ばれるプログラムを使ってインターネットで公開されているサイトの情報を集めています。公開されているページはクローラーにクロールされることで検索エンジンに登録され(インデックスされるともいいます)、その結果として検索結果に表示されます。通常は公開しているページに対するクロールをブロックする必要はないのですが、サイトの中には公開はしているけれど検索結果には表示を希望しないページがある場合があります。またCMS(コン
tyosuke2011 2016/10/22
cms

Robots.txt

検索エンジン

クロール

クローラー
リンク
Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ
はじめにこんにちは、データ分析部の久保 (@beatinaniwa) です。今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLやPythonを使って取得・分析することが多いですが、Web上にある外部データを使って分析に役立てたいというシーンはままあります。単独のページをガリガリスクレイピングしたいときなどは、下の1年半ぐらい前の会社アドベントカレンダーに書いたような方法でやっていけば良いんですが、いくつもの階層にわかれたニュースポータルサイトやグルメポータルサイトを効率よくクロール+スクレイピングするためには、それに適したツールを使うのがすごく便利です。 qiita.com そこでPython用スクレイピングフレームワークScrapyの登場です。 Scrapy | A Fast
tyosuke2011 2016/08/28
cloud

scrapy

web

クローラー

python
リンク
サルでもわかるアルゴリズムの正体
ネットを見ていると「アルゴリズム」という言葉が出てきますが、このアルゴリズムとは一体どういうものなんでしょうか？そのお話をする前にお断りですが、私はＳＥＯの専門家ではありませんので、このページに書かれている内容はあくまで個人の推測によるものであり正確性を書いている可能性があります。その点をご了承頂いたうえで読んで頂ければと思います。本来アルゴリズムとは、コンピューターで計算を行うときの「計算方法」という意味なのですが、ＩＴ関連の情報サイト上で良く出てくるアルゴリズムというのは「Google検索のアルゴリズム」のことを指しています。インターネットで検索する時にGoogleの検索窓に調べたいワードを入力すれば簡単に調べたいそのワードに関する情報が検索結果にズラズラっとたくさん出てきますよね。この検索結果に並んでいるサイトの順位付けをするための計算（プログラム）が「Google検索のアルゴ
tyosuke2011 2016/08/04
google

アルゴリズム

ＳＥＯ

クローラー
リンク
複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマでありたい
最近のRubyのクローラーは、EventMachineを使って並列化するのが流行のようです。EventMachineは、非同期処理をお手軽に実装できるフレームワークです。Rubyのスレッド機能との違いは、Reactorパターンを使いシングルスレッドで実装している点です。こちらのブログが詳しいので参考になります。　「見えないチカラ: 【翻訳】EventMachine入門」 EventMachineを使うと、イベント・ドリブンの処理を簡単に実装出来ます。使い方は簡単ですが、通常の同期処理やスレッドをつかった処理に比べると、どうしてもコードの記述量は多くなります。今回の例である並列化してクローラーを走らせるという用途であれば、短時間で多くのサイトにアクセスするのが目的です。イベント・ドリブンで並列化処理を実装するのが目的ではないはずです。その辺りの面倒くさい処理を実装したライブラリがcosmic
tyosuke2011 2016/05/02
HTTP

gem

Ruby

クローラー
リンク
『Rubyによるクローラー開発技法』を書きました - プログラマでありたい
勉強会やスライドで紹介していましたが、Ruby×クローラーという題材で、『Rubyによるクローラー開発技法』という本を書かせて頂きました。RubyとEmacsの鬼であるるびきちさんとの共著です。 Rubyによるクローラー開発技法巡回・解析機能の実装と21の運用例作者: るびきち,佐々木拓郎出版社/メーカー: SBクリエイティブ発売日: 2014/08/25メディア: 大型本この商品を含むブログ (1件) を見るこの本を書いた理由そもそものキッカケは、るびきちさんのエントリーにある通り、SBクリエイティブの編集者さんが、クローラーの作成経験のある人を探していて、私の書いた「オープンソースのRubyのWebクローラー"Anemone"を使ってみる」を読んで打診してくださったというのが始まりです。私自身も、Webからデータを収集して分析するということは、趣味として長年やってきました。一
tyosuke2011 2016/05/02
nokogiri

emacs

book

クローラー
リンク
Pythonでかんたんスクレイピング（JavaScript・Proxy・Cookie対応版）
ソース以下のようになると思います．スクレイピングしたいページのURLと出力ファイル名を指定すると，ページのタイトルなどがJSON形式で帰ってくる仕組みです．関数scrapingが本体です． import sys import json import requests from bs4 import BeautifulSoup import codecs def scraping(url, output_name): # get a HTML response response = requests.get(url) html = response.text.encode(response.encoding) # prevent encoding errors # parse the response soup = BeautifulSoup(html, "lxml") # extra
tyosuke2011 2016/04/26
name

JSON

python

cookie

クローラー

scraping
リンク
wgetが超絶便利なwebクローラー、クローリングツールだとは知らなかった・・・！
2013/04/08 この記事は書かれてから1年以上が経過しており、最新の情報とは異なる可能性があります techwgetC rawler ええ、知りませんでした。無知もいいところです・・・。 webコンテンツをざっくりローカルで見られるようにしたいなー。と思って、いろいろぐぐってました。基点のURLからリンクやらリソースやらを辿って、それらをすべて落としてきて、そこからさらにパスとかを変換してやればいいのかなーとか思っていたのですが、ぐぐってみると、もうすでに全部やってくれる便利なコマンドがあるのではないですか。それが、wget というソースコードをダウンロードするのによく使うコマンドだったことに驚きでした。ちなみに mac は入ってないっぽいのでさくっと入れました。 brew install wget 普通の使い方は、wget のあとにダウンロードしたい URL を続けて引
tyosuke2011 2015/06/16
web

FILE

ダウンロード

Path

Linux
リンク
1