今回は「Search API」のLookup Requestを使用します。 前回同様、Ajaxで取得します。 APIのgetパラメータにアプリ固有のID(前回のSearch Requestで取得したtrackId)を指定して、該当するアプリの詳細情報を取得します。 サンプルコード lookup_url = "http://itunes.apple.com/lookup?"; lookup_url = lookup_url + "id=" + id; // Search Requestで取得したtrackIdを指定 lookup_url = lookup_url + "&country=JP"; // 日本のAppStoreマーケットを指定 $.ajax({ type: 'GET', url: lookup_url, dataType : 'jsonp', // クロスドメイン接続
今回はiOSアプリのAppStoreランキング情報を取得します。 ランキング情報の取得は、前回までのSearch APIと異なりRSSを利用します。 (iTunesのRSS Feed Generatorのサイトで確認できます) RSSフィードは一般的にXML形式で回答されますが、上記サイトではパラメータの指定によりJSONで取得することもできます。 以下は、日本のAppStoreマーケットの総合ランキングを取得するサンプルです。 サンプルコード rss_url = "https://itunes.apple.com/jp/rss"; // 日本のマーケット(jp)を指定 rss_url = rss_url + "/topfreeapplications"; // 無料総合ランキング(iPhone)を指定 --- ① rss_url = rss_url + "/limit=10
1年程前にリリースしたモジュールなんですが、最近になって Node.jsで超簡単にスクレイピングを実装してみる - もやもやエンジニア node.js スクレイピング cheerio-httpcli の使い方 | まとめーたー とかで紹介していただいていたようなので、便乗して本人によるアッピールもしてみようかな、と。 Node.jsでスクレイピングする利点 何と言っても非同期で多数のサイトをガンガンスクレイピングできるところじゃないでしょうか。 一つのサイトに大量にアクセスするのは迷惑になるのでイカンですが、不特定多数のサイトに対してであるならば同時並行で処理できると処理時間の短縮にも繋がるかと思います。 cheerio-httpcliの特徴 WEBページの文字コードを自動判定してUTF-8に統一してくれる WEBページのhtmlをcheerioというモジュールでjQueryライクな操作が
なんか大げさなタイトルですが要するにバージョンアップのお知らせだったります。 「cheerio-httpcliって何よ」という場合は紹介記事をご覧になると、こちらの記事もより分かりやすくなると思います。 簡単に説明するとこんな感じのことができるモジュールです。 var client = require('cheerio-httpcli'); // Googleで「node.js」について検索する。 client.fetch('http://www.google.com/search', { q: 'node.js' }, function (err, $, res) { // レスポンスヘッダを参照 console.log(res.headers); // HTMLタイトルを表示 console.log($('title').text()); // リンク一覧を表示 $('a').each
happyou.infoは、国内のすべての上場企業3649社とすべての地方自治体1981サイトのウェブサイトからRSSフィードを作成し、happyou.info内にて無料公開します(*1)。 happyou.infoのトップページ Final Scraper Final Scraper はHTMLページのパターン解析を行い高品質のRSSフィードを作成します。 同様のサービスは他にも存在しますが、Final Scraperは独自のパターン認識プログラムによって、作成されるRSSフィードの品質を飛躍的に高めています。 Happyou Final Scraper FinalScraperを利用して、上場企業と地方自治体のサイトからフィードを作成して公開しました。 すべての上場企業 (2022年現在、公開を止めています) すべての地方自治体(2022年現在、公開を止めています) happyou A
読んだ本の管理ができる「読書メーター」というサービスにおいて、それぞれの本にどれだけの読者数がいるのかを引っ張ってくるプログラムを書きました。こんな感じで出力されます。 Gist : 読書メーターに登録されている本の読者数を取得するスクリプト プログラム作成の動機 読書メーターは本好きのためのSNSです。「人」に重きを置いたサービスだと思っています。読んだ冊数の変化がグラフ化されていたり、友達として繋がったりできます。一方で、「本」そのものに着目した機能は少なめです。読み終わった読者の数を追うだけでも、おもしろいデータがとれるのではないかと考えました。 そこで、1日ごとに登録読者数の変化を見てみようと思ったのですが、手動でやるのは思った以上に面倒でした。複数の本の変化を調べないと面白いデータは取れないと思ったのですが、注目する本が増えれば増えるほど手間がかかります。だから、プログラムを書い
By Tony Kwintera ウェブ上に表示されている広告を一体誰がどれくらいクリックしているのか明らかにするため、Oxford BioChronometricsの研究者であるアドリアン・ニール氏とサンダー・コーウェンホーヴェン氏は、2015年1月の7日間、Google・Yahoo!・LinkedIn・Facebookといった主要な広告ネットワーク上での広告クリック調査を実施しました。この調査の結果、広告クリックの88~98%がボットにより行われていることが明らかになりました。 OxfordBioChron_Quantifying-Online-Advertising-Fraud_Report.pdf (PDF)http://oxford-biochron.com/downloads/OxfordBioChron_Quantifying-Online-Advertising-Fraud
人が操作するのではなくプログラムで Web ブラウザを操作する PhantomJS というツールがある。中身は WebKit。それをより簡単に使うためのツールが CasperJS である。 インストール方法 PhantomJS と CasperJS のふたつをインストールする。 Mac で Homebrew を使っている場合は次の一行で終了。 % brew install phantomjs casperjsWindows の場合は PhantomJS のダウンロードページ から phantomjs-1.9.7-windows.zip を、CasperJS から Download 1.1-beta3 (ZIP) を選択する。ダウンロードした ZIP ファイルを適当な場所に展開し、phantomjs.exe および casperjs.exe のあるディレクトリにパスを通す。 PhantomJ
Command Line mitmproxy is your swiss-army knife for debugging, testing, privacy measurements, and penetration testing. It can be used to intercept, inspect, modify and replay web traffic such as HTTP/1, HTTP/2, WebSockets, or any other SSL/TLS-protected protocols. You can prettify and decode a variety of message types ranging from HTML to Protobuf, intercept specific messages on-the-fly, modify th
fl.ssig33.com を公開した LDR ユーザーの中で ssig33.com を読むような人達は蛮族だった 15 万フィードほどいきなりクロールすることになった という問題が発生しました。以下やった対処。 クローラの UA に連絡先を入れる これ多分一番重要 並列クロールするようにする 同じドメインは並列にクロールしない このドメインとこのドメインは並列にクロールしないみたいなブラックリストも作る ドメイン違うけど裏側は一緒っぽいみたいのをアレするため 手作業でリスト作るのもだるいので IP アドレス一緒だったドメインを全部ぶっこんだ 更新頻度が低いフィードのクロール頻度を下げた 更新頻度の 1/2 もしくは 2 週間に 1 度のうち、頻度の高い方をクロール頻度とした これで全然更新されてないやつは 2 週間に 1 度のクロールとした さらに、クロールした結果フィードが更新された場
今日はスクレイピングの話をします。 今回のターゲットは三菱東京UFJダイレクト。金融機関もウェブサービスを提供するようになり、金にまつわる情報を電子化しやすくなりましたが、かれらが API を提供しているわけではないので、私たちのほうで取得・加工をしてやる必要があります。今やウェブサイトであれば当然のように JavaScript を使っているわけなので、いわゆる mechanize、つまり HTML の解釈をおこない、リンクのクリックやフォームの送信をシンプルに実装するようなやり方でのスクレイピングはすでに無理筋だといえます。 もちろん今日においてはブラウザオートメーションという方法がすでにありますので、これを利用してやれば、なんの憂いもなく実際に人間が使うようなブラウザをプログラマティックに操作することができます。現在は Selenium WebDriver がデファクトで、これが使用す
シャワー後の水切りでヘドバンしてたら頸椎を痛めてしまいました。あれは絶対やめた方がいいです。と周囲に広めているたきゃはしです。急に本題ですが今回はPHPで簡単にできるWebスクレイピングをご紹介します。 ◯ Webスクレイピングとは Webサイトからデータを抽出するソフトウェア技術のことです。 RSSやWebAPIが公開されていないサイトからでもデータ抽出が出来るようなイメージです。 早速クローラーの Goutte(グットゥ) を使って紹介していきたいと思います。 Goutte は Symfony や Twig、Pimple等の開発者として知られるFabienが手がける人気ライブラリです。 ◯ インストール
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く