これをご覧になっている方は、”RSSを使ってブログを巡回”している人もいらっしゃるかと思います。 しかしRSS未対応のページや表の特定部分を抜き出して他で利用する場合、どうしたらいいのでしょうか。 以前RSSを提供していないHPからRSSを発行するサービスをご紹介しました。 これはサイトのURLを入力するだけで自動でRSSが発行されるものでした。 ■RSS配信のないホームページからRSS受信をする。 http://haaya.net/1533 しかし、必要のない広告なども一緒に出力されてしまいます。 今回はもう少し進んで、特定部分の抜き出しを『Dapper』というwebサービスを使って 抽出をしてみようと思います。画像が多いのでご注意ください。 ■今回作ろうと思うもの NHK BSのホームページにある映画情報をRSSとして取得する。 NHK BSオンライン 映画カレンダー http://w
このブログで、もう何回も書いているが、Yahoo! Pipesによるスクレイピングが楽しい。やりたいことができなくてRubyで書き始めたこともあったが、Pipesの視認性の良さに慣れてしまうと、後戻りは難しい。 で、触り始めた頃より少し覚えたことが増えたので列挙してみる。 1.PipesにはWeb型RSSリーダよりFirefoxのライブブックマークが似合う RSSと言えば、Livedoor ReaderなどWeb型のRSSリーダーで読む方が楽だという固定観念があったが、Pipesを頻繁に手直ししてると未読や既読が混ざってしまい扱いにくい。また、Fetch PageなどでRSSを生成するとpubDateが付かない(もしくは付けるのに苦労する)という点もWeb型と相性が悪い。Firefoxのライブブックマークなど、RSSそのものを単純に表示するようなツールの方が向いている気がする。 2.タイト
前回のエントリではめんどくさくて結果だけにしちゃいましたが、一番言いたかったチューニングがあんまり注目されてないのでちゃんと書いてみます。 かなり面倒 Yahoo! Pipes の応答速度が結構遅くて、1箇所変更しては2?3秒待っては確認を繰り返す必要あり。根気が必要。 これ、私の場合は 20 秒でした。根気ってレベルじゃない。 ボトルネックは「Regex モジュール」 pipesエディタはよくできていて、選択した工程までの結果とかかった時間を表示してくれます。なのでどこがボトルネックなのかが一目瞭然です。 以下は上で紹介している「Yahoo! Pipes の Page Fetch モジュールでスクレイピングし放題」の「はてブ ブックマーク件数一括取得API」のpipesエディタ画面。 まずは Regex モジュールの前まで。 「Time taken: 0.377219s」と出てますね。
Pipes - Module Referenceの各モジュール説明の和訳を行う。 ザッと検索した限り見当たらなかったのでのんびり上から一個づつやっていこうか…と。適当に補足したり意訳しているんで本文対比もしておく。あまりにも酷い訳と思うことがあれば、やる気が失せない程度にご指摘ください。助かります。 Sourcesモジュール:11個 Most Pipes begin with a data source. These modules grab data from somewhere on the internet and bring it into your Pipe for processing. Pipes - Module Reference 多くのPipesはデータソースからスタートする。Sourcesモジュール群を利用すると、Pipesで処理するようにインターネットなどどこか外部
はじめに 最近Yahoo!Pipesにハマっています。RSS(とかHTMLもブッコ抜きしたもの)を組み合わせたり抽出整列重複排除したりして楽しんでおりますがYahoo!Pipesを始めてみるにあたって参考にしたエントリをピックアップしておきます。 エントリだけでなく、エントリ内で紹介されたPipeを実際に(Sourceを)見てみると尚よいかと思います。 また、Yahoo!Pipesは、HTMLがちょっと読めたり簡単な正規表現を知ってたりするとより楽しくなります。 まずはやってみる 1:「Yahoo! Pipes」の超簡単な使い方 Yahoo!Pipesを使い英語のRSSフィードを日本語に翻訳する例。 2:エンジニアでない人のためのYahoo! Pipes入門:[mi]みたいもん! 上のネタフルと同じ例ですが、こちらは動画付き。操作の雰囲気がわかると思います。 3:http://ido.nu
ウレタン系高反発マットレスでよく言及されるのが密度です。それを頑張って分かりやすく説明してみます。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く