[B! crawler] katotakuのブックマーク

http://doroidpanic.com/ws/googleplay-ranking-api/

katotaku 2016/10/04

リンク

Search APIを使ってiOSアプリの詳細情報を表示する

今回は「Search API」のLookup Requestを使用します。前回同様、Ajaxで取得します。 APIのgetパラメータにアプリ固有のID（前回のSearch Requestで取得したtrackId）を指定して、該当するアプリの詳細情報を取得します。サンプルコード lookup_url = "http://itunes.apple.com/lookup?"; lookup_url = lookup_url + "id=" + id; // Search Requestで取得したtrackIdを指定 lookup_url = lookup_url + "&country=JP"; // 日本のAppStoreマーケットを指定 $.ajax({ type: 'GET', url: lookup_url, dataType : 'jsonp', // クロスドメイン接続

katotaku 2016/10/04

リンク

AppStoreランキング情報を表示する

今回はiOSアプリのAppStoreランキング情報を取得します。ランキング情報の取得は、前回までのSearch APIと異なりRSSを利用します。 (iTunesのRSS Feed Generatorのサイトで確認できます) RSSフィードは一般的にXML形式で回答されますが、上記サイトではパラメータの指定によりJSONで取得することもできます。以下は、日本のAppStoreマーケットの総合ランキングを取得するサンプルです。サンプルコード rss_url = "https://itunes.apple.com/jp/rss"; // 日本のマーケット(jp)を指定 rss_url = rss_url + "/topfreeapplications"; // 無料総合ランキング(iPhone)を指定 --- ① rss_url = rss_url + "/limit=10

katotaku 2016/10/04

リンク

VBAのInternetExplorerオブジェクトのメソッド・プロパティ | IE操作の自動化

VBAのIE(InternetExplorer)オブジェクトのメソッド・プロパティについて解説しています。 VBAのIE制御

katotaku 2016/07/19

vba
crawler

リンク

Node.js用のスクレイピングモジュール「cheerio-httpcli」の紹介 - Qiita

1年程前にリリースしたモジュールなんですが、最近になって Node.jsで超簡単にスクレイピングを実装してみる - もやもやエンジニア node.js スクレイピング cheerio-httpcli の使い方 | まとめーたーとかで紹介していただいていたようなので、便乗して本人によるアッピールもしてみようかな、と。 Node.jsでスクレイピングする利点何と言っても非同期で多数のサイトをガンガンスクレイピングできるところじゃないでしょうか。一つのサイトに大量にアクセスするのは迷惑になるのでイカンですが、不特定多数のサイトに対してであるならば同時並行で処理できると処理時間の短縮にも繋がるかと思います。 cheerio-httpcliの特徴 WEBページの文字コードを自動判定してUTF-8に統一してくれる WEBページのhtmlをcheerioというモジュールでjQueryライクな操作が

katotaku 2016/04/11

リンク

Node.jsのスクレイピングモジュール「cheerio-httpcli」が大規模アップデートして帰ってきた - Qiita

なんか大げさなタイトルですが要するにバージョンアップのお知らせだったります。「cheerio-httpcliって何よ」という場合は紹介記事をご覧になると、こちらの記事もより分かりやすくなると思います。簡単に説明するとこんな感じのことができるモジュールです。 var client = require('cheerio-httpcli'); // Googleで「node.js」について検索する。 client.fetch('http://www.google.com/search', { q: 'node.js' }, function (err, $, res) { // レスポンスヘッダを参照 console.log(res.headers); // HTMLタイトルを表示 console.log($('title').text()); // リンク一覧を表示 $('a').each

katotaku 2016/04/11

リンク

全上場企業と全地方自治体のRSSを出力することに成功しました - happyou.infoのブログ

happyou.infoは、国内のすべての上場企業3649社とすべての地方自治体1981サイトのウェブサイトからRSSフィードを作成し、happyou.info内にて無料公開します(*1)。 happyou.infoのトップページ Final Scraper Final Scraper はHTMLページのパターン解析を行い高品質のRSSフィードを作成します。同様のサービスは他にも存在しますが、Final Scraperは独自のパターン認識プログラムによって、作成されるRSSフィードの品質を飛躍的に高めています。 Happyou Final Scraper FinalScraperを利用して、上場企業と地方自治体のサイトからフィードを作成して公開しました。すべての上場企業　（2022年現在、公開を止めています）すべての地方自治体（2022年現在、公開を止めています） happyou A

katotaku 2015/09/20

crawler

リンク

Rubyでスクレイピング - 読書メーター（webページ）の情報を抽出するプログラム - 理系院卒のネットワークなブログ

読んだ本の管理ができる「読書メーター」というサービスにおいて、それぞれの本にどれだけの読者数がいるのかを引っ張ってくるプログラムを書きました。こんな感じで出力されます。 Gist : 読書メーターに登録されている本の読者数を取得するスクリプトプログラム作成の動機読書メーターは本好きのためのSNSです。「人」に重きを置いたサービスだと思っています。読んだ冊数の変化がグラフ化されていたり、友達として繋がったりできます。一方で、「本」そのものに着目した機能は少なめです。読み終わった読者の数を追うだけでも、おもしろいデータがとれるのではないかと考えました。そこで、1日ごとに登録読者数の変化を見てみようと思ったのですが、手動でやるのは思った以上に面倒でした。複数の本の変化を調べないと面白いデータは取れないと思ったのですが、注目する本が増えれば増えるほど手間がかかります。だから、プログラムを書い

katotaku 2015/07/31

crawler

リンク

TechCrunch | Startup and Technology News

Boeing’s Starliner spacecraft has successfully delivered two astronauts to the International Space Station, a key milestone in the aerospace giant’s quest to certify the capsule for regular crewed missions. Starliner…

katotaku 2015/07/30

データ集約

data
crawler

リンク

ネット広告のクリック数のうち88～98％はボットによるものだと判明

By Tony Kwintera ウェブ上に表示されている広告を一体誰がどれくらいクリックしているのか明らかにするため、Oxford BioChronometricsの研究者であるアドリアン・ニール氏とサンダー・コーウェンホーヴェン氏は、2015年1月の7日間、Google・Yahoo!・LinkedIn・Facebookといった主要な広告ネットワーク上での広告クリック調査を実施しました。この調査の結果、広告クリックの88～98％がボットにより行われていることが明らかになりました。 OxfordBioChron_Quantifying-Online-Advertising-Fraud_Report.pdf (PDF)http://oxford-biochron.com/downloads/OxfordBioChron_Quantifying-Online-Advertising-Fraud

katotaku 2015/02/14

crawler

リンク

サービス終了のお知らせ - NAVER まとめ

サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

katotaku 2014/12/12

crawler

リンク

【情報】Excel でスクレイピング【ぶっこ抜き】 | クマがいちごを食べていた

一定期間更新がないため広告を表示しています

katotaku 2014/12/12

crawler

リンク

【連載】CasperJS でスクレイピング (1) - CasperJS の基本 - メモ用紙

人が操作するのではなくプログラムで Web ブラウザを操作する PhantomJS というツールがある。中身は WebKit。それをより簡単に使うためのツールが CasperJS である。インストール方法 PhantomJS と CasperJS のふたつをインストールする。 Mac で Homebrew を使っている場合は次の一行で終了。 % brew install phantomjs casperjsWindows の場合は PhantomJS のダウンロードページから phantomjs-1.9.7-windows.zip を、CasperJS から Download 1.1-beta3 (ZIP) を選択する。ダウンロードした ZIP ファイルを適当な場所に展開し、phantomjs.exe および casperjs.exe のあるディレクトリにパスを通す。 PhantomJ

katotaku 2014/12/08

crawler

リンク

Home

katotaku 2014/12/03

crawler

リンク

mitmproxy - an interactive HTTPS proxy

Command Line mitmproxy is your swiss-army knife for debugging, testing, privacy measurements, and penetration testing. It can be used to intercept, inspect, modify and replay web traffic such as HTTP/1, HTTP/2, WebSockets, or any other SSL/TLS-protected protocols. You can prettify and decode a variety of message types ranging from HTML to Protobuf, intercept specific messages on-the-fly, modify th

katotaku 2014/11/02

リンク

ssig33.com - クローラー運用について

fl.ssig33.com を公開した LDR ユーザーの中で ssig33.com を読むような人達は蛮族だった 15 万フィードほどいきなりクロールすることになったという問題が発生しました。以下やった対処。クローラの UA に連絡先を入れるこれ多分一番重要並列クロールするようにする同じドメインは並列にクロールしないこのドメインとこのドメインは並列にクロールしないみたいなブラックリストも作るドメイン違うけど裏側は一緒っぽいみたいのをアレするため手作業でリスト作るのもだるいので IP アドレス一緒だったドメインを全部ぶっこんだ更新頻度が低いフィードのクロール頻度を下げた更新頻度の 1/2 もしくは 2 週間に 1 度のうち、頻度の高い方をクロール頻度としたこれで全然更新されてないやつは 2 週間に 1 度のクロールとしたさらに、クロールした結果フィードが更新された場

katotaku 2014/10/13

crawler

リンク

まだmechanizeで消耗してるの? WebDriverで銀行をスクレイピング（ProtractorとWebdriverIOを例に） - 詩と創作・思索のひろば

今日はスクレイピングの話をします。今回のターゲットは三菱東京UFJダイレクト。金融機関もウェブサービスを提供するようになり、金にまつわる情報を電子化しやすくなりましたが、かれらが API を提供しているわけではないので、私たちのほうで取得・加工をしてやる必要があります。今やウェブサイトであれば当然のように JavaScript を使っているわけなので、いわゆる mechanize、つまり HTML の解釈をおこない、リンクのクリックやフォームの送信をシンプルに実装するようなやり方でのスクレイピングはすでに無理筋だといえます。もちろん今日においてはブラウザオートメーションという方法がすでにありますので、これを利用してやれば、なんの憂いもなく実際に人間が使うようなブラウザをプログラマティックに操作することができます。現在は Selenium WebDriver がデファクトで、これが使用す

katotaku 2014/10/01

crawler

リンク

Webスクレイピングが捗るGoutteを使ってみる

シャワー後の水切りでヘドバンしてたら頸椎を痛めてしまいました。あれは絶対やめた方がいいです。と周囲に広めているたきゃはしです。急に本題ですが今回はPHPで簡単にできるWebスクレイピングをご紹介します。 ◯ Webスクレイピングとは Webサイトからデータを抽出するソフトウェア技術のことです。 RSSやWebAPIが公開されていないサイトからでもデータ抽出が出来るようなイメージです。早速クローラーの Goutte（グットゥ）を使って紹介していきたいと思います。 Goutte は Symfony や Twig、Pimple等の開発者として知られるFabienが手がける人気ライブラリです。 ◯ インストール

katotaku 2014/09/29

crawler

リンク

はてなブックマーク

タグ

関連タグで絞り込む (25)

crawlerに関するkatotakuのブックマーク (128)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス