![JSフレームワーク時代に必要なGooglebot分析とスクレイピングの技術(テクニカルSEOの復権全6回の3) | Moz - SEOとインバウンドマーケティングの実践情報](https://cdn-ak-scissors.b.st-hatena.com/image/square/0608ab55b9ad90c4188d020d5681205bd9b65a41/height=288;version=1;width=512/https%3A%2F%2Fwebtan.impress.co.jp%2Fsites%2Fdefault%2Ffiles%2Fstyles%2F1200x630%2Fpublic%2Fimages%2Fseomoz%2Fmoz_teaser_icon_1_200.png%3Fitok%3DCPk14RKP)
書くと宣言しながら、すっぽかしていたクローラー/スクレイピング Advent Calendar 2014の11日目です。ExcelのVBAで、IEの操作が出来ます。またその中の機能にDOM操作があります。この二つがあれば、Excelだけでスクレイピングできますよという話です。 何を隠そう、私が初めてスクレイピングに手を染めたのはこのExcel VBAスクレイピングでした。毎月定期的に所定のデータを観測するという仕事があって、面倒くさくて仕方がない私は記録用のExcelを魔改造して勝手に取得するようにしました。1時間くらい掛かってた作業も、ボタンポチになったので随分楽になったと記憶しています。(結局、ボタンを押すのも面倒くさくなって、毎日サーバサイドで動かすようにしましたが) スクレイピングの手始めにピッタリのExcel VBAスクレイピングです。環境の用意が簡単なので、ノンプログラマーでも
検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏 作者:山田 浩之,末永 匡発売日: 2014/09/25メディア: 単行本(ソフトカバー) (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日本語の形態素解析 検索エンジンの構築 データをMongoDBに格納 Fl
2016-12-09追記 「Pythonクローリング&スクレイピング」という本を書きました! Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2016/12/16メディア: 大型本この商品を含むブログを見る 2015年6月21日 追記: この記事のクローラーは動かなくなっているので、Scrapy 1.0について書いた新しい記事を参照してください。 2014年1月5日 16:10更新: デメリットを修正しました。 以下の記事が話題になっていたので、乗っかってPythonの話を書いてみたいと思います。 Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ 複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマにな
はじめに PhantomJS - Scriptable Headless Browser PhantomJS はヘッドレスな(ブラウザ画面のない)QtWebKit ベースのブラウザで、JavaScript の API を通じて、そのブラウザを自由自在にあやつることが出来ます。使用シーンとしては、Jenkins などの CI ツールとの組み合わせによる Web ページの GUI の自動テストや、Web ページのスクリーンキャプチャ、スクレイピングなどが挙げられます。 今回は、ログインが必要なページの情報をパースして自分専用に RSS 化したいなと思い、3つ目のスクレイピング用途をベースに調べてみました。その内容を備忘録として残しておきます。 出来るようになること ログインが必要なページの HTML を取ってくる ログインが必要なページのスクリーンキャプチャを撮る PhantomJS の導入
rubyでスクレイピングしている記事が目に入ったので 突発的にpythonでスクレイピングする記事を書きたいと思います。 内容も同じことを目指したいと思います。 セットアップ~ブログ記入完了まで1時間30分しかありませんが始めます。 まずこれを書いているマシンがセットアップしたてのためまっさらな環境です まずpythonのインストールからはじめました。 http://www.python.org/download/ 3.0系が出て時間がたちましたが、 GAEなどをはじめとしていまだに2.0系でないと対応できないものも多く ここでは2.7.1を利用します。 Winではexeからインストールを行い、 環境変数PATHにインストールしたディレクトリを追加しました。 次にあると便利なeasy_installを入れておきます。 今回ただスクレイピングするだけなら必要ありませんが せっかくですし便利
1. はじめに このサイトは php を利用したスクレイピング処理の具体的手法について記載されたサイトにしようと思っています。なので、あまり面白いサイトではありません。内容も偏重していることと思いますが、ご質問などがございましたら、りょーちまでご連絡ください。 1.1. スクレイピングとは スクレイピングの話しを始める前に、現在のWebサービスについて幾つか言及しておきます。 現在様々な会社が様々なWebサービスを展開しています。かなり昔、今よりWebサイトそのものが少ない頃の時代は、HTMLファイルを手動で作成することが殆どでした。しかし、現在はバックグラウンドにデータベースが存在し、データベースの内容を動的に表示し、ページを作成するようなサイトがかなり多くなっています。 さて、データベースを利用するメリットは何でしょうか? 幾つかの視点が挙げられると思います。 最も重要な点は、ひとつひ
最近知ったGoogle Docsのスプレッドシートでの裏技が3つほど。 1.importXMLなどの関数で簡単にWeb上からデータを取得できる 2.作成したスプレッドシートはRSSで出力できる 3.Google Apps Script = JavaScript(Excelのマクロみたいな物だと思ってました) 人によっては、今更感があるかもしれませんが、意外と知らない人が多いのではないかと思います。個人的には、なかなか便利だと思いました。プログラマでなくても、簡単にWeb上からデータを引っ張ってこれます。 ……ということで、今回はこれを使って色々やってみました。 1.経済レポート.comでレポート発行元のURLを取得する 2.リアルタイム文書校正ツールを作る 3.特定URLのFacebookシェア数、ツイート数、はてブ数をカウントする 本当に実用的なのは、3くらいじゃないかと思われます。。。
新年あけましておめでとうございます。今年もボチボチやっていきます。 本稿ではPHP製のWebスクレイピングライブラリGoutteを紹介します。 Goutte(グット)とは Goutteは必要十分な機能を持ったWebスクレイピングライブラリです。そもそもWebスクレイピングというのは、外部Webページから必要なデータを取ってくるくらいの意味です。つまり、GoutteはWebスクレイピングを簡単に行う道具だと考えればいいでしょう。 具体的には、GoutteはWebクローラとHTMLパーサを組み合わせたようなものです。Cookieやフォームの扱いなどWebブラウザとしての機能は一通り揃っていますし、CSS風の要素指定もできるなど、機能面では他のライブラリと遜色ないように感じます。 さらに僕個人がGoutteに期待している点は、安定性とロングサポートです。Goutteは主要機能をSymfony2お
え~と、ネタ切れです。。。今更なんですがスクレイピングをネタにしようかな~なんて。。。 書くネタあるんですけど、ちょっとまとめるのに時間がかかりそうなものばかりなんでちゃちゃっと書けそうなものを選びました。。 PHP Simple HTML DOM Parserについて書きたいと思います。 かなり出回っているのでかなり情報があると思います。 でもこれはほんといいっすよー! イメージで言ったらウェブ上の必要な箇所をザクっと切り出してくれるという感じですね。 無許可で人のサイトを取り出さないようにしてくださいね。 スポンサーリンク PHP Simple HTML DOM Parserの使い方 まずここからダウンロードしてきてください。 そしてダウンロードしてきたものを解凍して「simple_html_dom.php」このファイルだけをアップします。他のファイルはマニュアルとかサンプルなので必要
[対象: 中〜上級] 無断でコンテンツをコピーして転載する、いわゆるスクレイピングがオリジナルのページよりも検索順位が上になってしまう事件がまたもや発生しました。 BuzzFeedが詳細を報じています。 今回問題となったのは、The Vergeというテクノロジーやサイエンス、アート、カルチャーなどのニュースをカバーするメディアサイトです。 The Vergeは、“For Amusement Only: the life and death of the American arcade”という記事を1月16日に公開しました。 すると、The Huffington Postというこれまたニュース系のサイト(有名サイト)が、自分たちのサイトで1月21日にその記事を掲載しました。 記事のタイトルは“The Life And Death Of The American Arcade”です。 先頭の“
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く