[B! スクレイピング] y-kobayashiのブックマーク

y-kobayashi id:y-kobayashi

スクレイピングに関するy-kobayashiのブックマーク (27)

GoでシュッとWebスクレイピングする
12. 12 使ったパッケージ例）タイトルタグの中身を取得 doc, _ := goquery.NewDocument(url) doc.Find("title").Text() 例）クラス名を指定して取得 doc, _ := goquery.NewDocument(url) doc.Find(".hoge-list > li") 13. 13 使ったパッケージ doc.Find(".hoge-list > li ").Each(func(i int, s *goquery.Selection) { s.Find(“a > span”).Text() }) 例）取得した複数のliをループする jQueryでDOM操作をゴリゴリしたことがある人にはきっと使いやすい ※goqueryの詳しい使い方はググる
y-kobayashi 2019/05/27
golang

スクレイピング
リンク
AWS FargateとLambdaでサーバーレスなクローラー運用 - orangain flavor
これはWebスクレイピング Advent Calendar 2017の7日目の記事です。こんな感じでAWS FargateとAWS Lambdaを使ってサーバーレス（EC2レス）なクローラーを作ります。この記事はFargateでのクローリング処理にフォーカスしており、クロールしたHTMLをS3に保存するところまでを主に解説します。Lambdaの方はおまけ程度の扱いで、スクレイピングしたデータの扱い（データベースへの格納など）はスコープ外です。長くなったので目次です。背景 AWS Fargateの登場クローラーの構成やってみる 1. ScrapyのプロジェクトでSpiderを作る 2. Scrapy S3 Pipelineをインストールする 3. Scrapy S3 Pipelineをプロジェクトに追加する 4. ScrapyのプロジェクトをDockerizeする 5. Amazo
y-kobayashi 2018/04/02
aws

crawler

スクレイピング
リンク
PythonでWebスクレイピングする時の知見をまとめておく - Stimulator
- はじめに - 最近はWebスクレイピングにお熱である。趣味の機械学習のデータセット集めに利用したり、自身のカードの情報や各アカウントの支払い状況をスクレイピングしてスプレッドシートで管理したりしている。最近この手の記事は多くあるものの「～してみた」から抜けた記事が見当たらないので、大規模に処理する場合も含めた大きめの記事として知見をまとめておく。追記 2018/03/05：大きな内容なのでここに追記します。 github.com phantomJSについての記載が記事内でありますが、phantomJSのメンテナが止めたニュースが記憶に新しいですが、上記issueにて正式にこれ以上バージョンアップされないとの通達。記事内でも推奨していますがheadless Chrome等を使う方が良さそうです。 - アジェンダ - 主に以下のような話をします。 - はじめに - - アジェンダ
y-kobayashi 2017/06/26
Python

スクレイピング
リンク
MozillaのスクレイピングフレームワークFathomを試してみる - たけぞう瀕死ブログ
こちらのOSDNの記事で知ったのですが、MozillaでFathomというJavaScript用のスクレイピングフレームワークを開発しているようです。仕事でクローラーを作ったりしていたこともあり、面白そうだと思ったので軽く調べてみました。 mag.osdn.jp 以下のGitHubリポジトリで開発されています。GitHub Pagesに詳しいドキュメントもあります。 github.com OSDNの記事で触れられている開発者のErik Rose氏のブログエントリはこちら。 hacks.mozilla.org ドキュメントやErikさんのブログエントリなどをざっと眺めてみたところ、それほど複雑なものではなく、ある程度曖昧なルールとスコアリングを定義しておき、最もスコアの高い要素の選択するというのが基本的なコンセプトのようです。なにはともあれ試してみます。まずは適当なディレクトリを掘り、np
y-kobayashi 2017/05/03
スクレイピング

javascript
リンク
goでスクレイピングするのにgoquery + bluemonday が最強な件 - Qiita
package main import ( "github.com/PuerkitoBio/goquery" "fmt" ) func main() { doc, err := goquery.NewDocument("https://github.com/PuerkitoBio/goquery") if err != nil { fmt.Print("url scarapping failed") } doc.Find("a").Each(func(_ int, s *goquery.Selection) { url, _ := s.Attr("href") fmt.Println(url) }) }
y-kobayashi 2016/02/23
golang

スクレイピング

crawler
リンク
ccc_privacy_bot を支える技術 - くりにっき
はじめにこれはクローラー／スクレイピング Advent Calendar 2014 - Qiita の9日目です 8日目 id:dkfj さんのクローラー／スクレイピングのWebサービス　「Kimono」のユースケース - プログラマになりたいでした 9日目：ccc_privacy_bot を支える技術先日書いたエントリがめでたく580はてブいきました。気づいたらGIGAZINEさんにも取り上げてもらえました。ﾌｧｯ!? / “Tカードが個人情報を提供する企業を通知してくれる「Tカード個人情報提供先新着bot」 - GIGAZINE” http://t.co/8j0JNPylod— sue445 (@sue445) 2014, 11月 20 このボットで使ってるスクレイピングとクローリングのTipについて解説しますソースコードソースコードはgithubに公開しています。
y-kobayashi 2014/12/26
heroku

スクレイピング

crawler

cron
リンク
まだmechanizeで消耗してるの? WebDriverで銀行をスクレイピング（ProtractorとWebdriverIOを例に） - 詩と創作・思索のひろば
今日はスクレイピングの話をします。今回のターゲットは三菱東京UFJダイレクト。金融機関もウェブサービスを提供するようになり、金にまつわる情報を電子化しやすくなりましたが、かれらが API を提供しているわけではないので、私たちのほうで取得・加工をしてやる必要があります。今やウェブサイトであれば当然のように JavaScript を使っているわけなので、いわゆる mechanize、つまり HTML の解釈をおこない、リンクのクリックやフォームの送信をシンプルに実装するようなやり方でのスクレイピングはすでに無理筋だといえます。もちろん今日においてはブラウザオートメーションという方法がすでにありますので、これを利用してやれば、なんの憂いもなく実際に人間が使うようなブラウザをプログラマティックに操作することができます。現在は Selenium WebDriver がデファクトで、これが使用す
y-kobayashi 2014/10/01
crawler

スクレイピング

Protractor

CasperJS
リンク
Rubyによるクローラー開発技法の目次 - プログラマでありたい
るびきちさんとの共著である「Rubyによるクローラー開発技法巡回・解析機能の実装と21の運用例」が今週末（8/23,24）くらいから、本屋さんの店頭に並ぶようです。経緯や執筆スタイルなどは別途まとめたいと思いますが、ようやくここまで辿り着けたというところです。 AmazonとSBクリエイティブさんのページを見ても、8/21現在では詳細の目次が無いようです。手元にあったデータを貼り付けておきますので、参考にしていただければと思います。 Rubyによるクローラー開発技法　目次 Chapter 1 10分クローラーの作成 1-1 イントロダクション 2 1-1-1 クローラーとは 2 1-1-2 Rubyとは 2 1-2 クローラー「GNU Wget」3 1-2-1 Wgetとは 3 1-2-2 インストール 4 1-2-3 Wget の簡単な使い方 7 1-2-4 クローラーとしての Wg
y-kobayashi 2014/08/25
スクレイピング

crawler

ruby
リンク
第1回Webスクレイピング勉強会@東京（全3回） - Qiita
official connpass 「Webスクレイピングの基礎知識」（@nezuq） SlideShare 3つの壁を突破する倫理情報解析目的なら合法と解析と解釈(文化庁のQAに肯定的記述) 常識的な範囲でのアクセス障害なら過失と言える。(国立国会図書館の場合、1秒以上あけてスクレイピングなら可能) 技術最低限でもHTMLの知識事例(どう使うか) データジャーナリズム(データからストーリーを見つけ提供する。NHKでやってる) Data Journalism Handbook(大義がある) 「オープンデータのためのスクレイピング〜抽出・共有・分析まで〜」（@ito_nao） SlideShare プログラミング不要でスクレイピング出来るwebサービスのご紹介 Tabula PDFからデータを抽出するツール kimono paginationが得意。構造化されたクローリングは苦手
y-kobayashi 2014/06/23
スクレイピング
リンク
PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - orangain flavor
2016-12-09追記「Pythonクローリング&スクレイピング」という本を書きました！ Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2016/12/16メディア: 大型本この商品を含むブログを見る 2015年6月21日追記：この記事のクローラーは動かなくなっているので、Scrapy 1.0について書いた新しい記事を参照してください。 2014年1月5日 16:10更新：デメリットを修正しました。以下の記事が話題になっていたので、乗っかってPythonの話を書いてみたいと思います。 Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - 病みつきエンジニアブログ複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマにな
y-kobayashi 2014/01/05
python

crawler

スクレイピング
リンク
Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - 病みつきエンジニアブログ
今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その本文をデータベースに保存します。これは、次のようなフローに書き下すことができます。全URLを取得し、データベースに保存データベースにある全URLをダウンロードする保存した全ページを解析して、本文をデータベースに保存するという流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと
y-kobayashi 2013/12/31
ruby

crawler

スクレイピング

resque
リンク
Not Found |ミレスポ！ - Millennials Sports Marketing
横浜F・マリノスユース同期6人による新たな挑戦「ROOTS.」。新時代に適応するアスリートに必要な素質とは。
y-kobayashi 2013/06/28
スクレイピング
リンク
seleniumでスクレイピング [Ruby] - 酒と泪とRubyとRailsと
RubyからChrome/Safari/IE/Firefoxを操作してスクレイピングする方法として、『Selenium』を使う方法があったので、ちょっと試してみました。今回はその時のメモです。 Rubyからブラウザを操作する方法としては、他にGem『Watir』を使う方法もあるので、よかったらこちらもご検討下さい！
y-kobayashi 2013/05/30
ruby

selenium

スクレイピング
リンク
ログインが必要なページでもサクサクっとスクレイピングしちゃう「CasperJS」 | astronaughts.net
Titanium 以外のこと書くの久しぶりども、最近 Titanium mobile と同じ釜の飯を食った仲レベルの仲良しっぷりを発揮している、ボクです。そんなボクですが先日初仕事となる ChatWork のバージョンアップ版がリリースされました。いやはや、めでたい。なのでいろいろ Titanium mobile について書きたいことがわんさかあるんですが、ここはちょっと寝かせておいて敢えて別の思考で行きたいと思います。 JavaScript でスクレイピングできちゃう超ハイカラなやつ iOS アプリ作ってて TestFlight 使ってるんですが API が用意されてなくてわざわざ Web サイトにログを見に行かないといけなく、なんかイイ方法ないかなと思ってスクレイピングを考えていたんですが、その中でこいつと出会いました。 CasperJS - http://casperjs.org
y-kobayashi 2013/03/01
PhantomJs

CasperJS

スクレイピング
リンク
Big Sky :: Go言語で jQuery ライクな操作が出来る goquery を試した。
スクレイピング等を行う場合、スクリプト言語が大きく威力を発揮します。例えばブログの様にタイトルと本文の組が反復される様なページをスクレイピングする場合 URLからHTMLを得る HTMLからDOMオブジェクトを得るエントリとなるDOMノードを検索するエントリノードでループするエントリノードからタイトルとなるDOMノードを探索しテキストを得るエントリノードから本文となるDOMノードを探索しテキストを得るこの様になるかと思います。こういった処理を一般的なコンパイル型言語を使って実行しようとするとエラーチェック反復処理検索処理といったコードをゴリゴリ書かなければいけなかったりします。もちろんそれ専用のライブラリを使えば出来きますが、コンパイル型言語ではなかなか良い物がないのは事実です。javascriptに到っては jQuery を使えば簡単に出来ますが、コンパイル型言語向け
y-kobayashi 2012/09/20
go

スクレイピング
リンク
XMLのWebAPIを爆速で使いこなせるフレームワーク
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog Yahoo!デベロッパーネットワークの中野(@Hiraku)です。先日、爆速JSONPを使うと、JSONPのWebAPIを簡単に使いこなせることを示しました。とは言っても、JSONPに対応していないWebAPIも数多くあります。ニュースAPI、知恵袋API…。これらは現時点ではXMLしか対応しておらず、爆速JSONPではブログパーツ化できません。 …いや、「ブログパーツ化できませんじゃなくて、とっととJSONPに対応しろよ」とお叱りを受けるところなんですが、実はXMLなら何でもJSONPに変換することのできる「YQL」というサービスがあり、これを使うことでカバーする方法があるのです！ YQLの説明は後にして、まずはデモをご覧くだ
y-kobayashi 2012/09/13
yql

スクレイピング

yahoo

api

xml
リンク
GitHub - punchdrunker/AppReviewViewer
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
y-kobayashi 2012/07/24
スクレイピング
リンク
Blogger
Google のウェブログ公開ツールを使って、テキスト、写真、動画を共有できます。
y-kobayashi 2012/07/20
clojure

スクレイピング
リンク
App Store、Google Playのアプリレビューを取得·AppReviewViewer MOONGIFT
AppReviewViewerはiOSのApp Store、Google Playのアプリレビューを取得し、DBに蓄積するソフトウェアです。スマートフォンアプリが盛り上がっています。iOS、Androidがその主役になります。そこで紹介するのがAppReviewViewerです。App Store、Google Playに登録されているアプリレビューを取得してDBに蓄積、閲覧できるソフトウェアです。トップページです。まずアプリケーションを登録します。アプリのIDと名称を入力します。登録しました。アプリは複数登録できます。次にデータを取得します。この部分は実際にはCron化していいでしょう。見事データが取得できています。評価やコメントが取得できています。バージョンを指定してコメントを絞り込むこともできます。 AppReviewViewerはMecabをインストールしているとキー
y-kobayashi 2012/06/26
itunes

android

oss

ruby

sinatra

crawler

スクレイピング
リンク
The WHATWG Blog — Validator.nu HTML Parser 1.4 Available
y-kobayashi 2012/06/21
java

スクレイピング
リンク
1 2 次のページ