[B! scraping] chikoのブックマーク

Ruby/scrAPIを試してみる:TKMR.blog.show

RSS翻訳のWebサービスあって良いと思うのに、どうも無さそう？。 RSS ⇒ 翻訳サイト ⇒ 翻訳RSSということできれば良いけど、WebAPIを公開してる翻訳サービスって意外に少ない。。WebserviceX.NET :: Web Servicesってとこが公開してるけど、SOAPだしちょい微妙＆scrAPIを使ってみたい。ということで普通の翻訳サービスをスクレイピングして無理矢理やる。まずscrAPIをインストール gem install scrAPI gem install tidy scrAPIのチートシートがあったので参考にしつつ。もしこういうHTMLを読み込むとしたら <div.post_show> <h2><a href="http://hoge">タイトル～</a></h2> <h5>2006-12-01</h5> <div> 本文とか </div>

chiko 2010/09/27

リンク

String#scrape - ヽ( ・∀・)ノくまくまー(2007-01-15)

● String#scrape どうせお前らはあれだろ、scrAPI は強力だし、これこそ自分がまさに待望してた道具、使いこなすぜ！と意気込んでるんだけど、どれだけ決意してもあの複雑な引数に毎回挫折しちゃって、挫折つーかちょっと使いたいだけなのにパーザ(Scrape)用のクラスを定義するのが面倒なんだよね、みたいな言い訳を毎回自分にしつつ、結局使いこなせてない脳内ゆとり世代のお前らなんだけど、まぁ実際引数に無駄に色んな機能を詰め込み過ぎてる感は否めないし、というかextractorのsrcとdstはどう見ても直感的に逆だろ、grepみたいに使わせろよ使えない1だな、みたいな愚痴をこぼしてたら、むしろCSS3なgrepとして使えるだけでいい事に気付いて、You、Stringクラスに入れちゃいなYO！ String#scrape の定義 require 'scrapi' class Strin

chiko 2010/09/27

リンク

Ruby でスクレイピングするなら scrAPI の parser_options とか WWW::Mechanize の Pageオブジェクトとかに気を付けろ！！ - (ﾟ∀ﾟ)o彡 sasata299's blog

2009年07月10日03:15 Ruby Ruby でスクレイピングするなら scrAPI の parser_options とか WWW::Mechanize の Pageオブジェクトとかに気を付けろ！！タイトルの通りですが、Ruby でスクレイピングするときって、scaAPI とか WWW::Mechanize を利用するんではないかと思います。hpricot とかも使うかも知れませんが・・。ってことで、自分で実際に使ってみたときに困ったことなどをまとめてみました〜。 scrAPI - スクレイピングのお供 Ruby で scrAPI を使うときにはこのように process に取得したい要素をセレクタで指定したり、取得する値（"@src" とか :text とか）を指定したりします。以下のようにすると、imgタグのsrc部分を抽出して data[:urls] に、aタグのテキス

chiko 2010/09/27

リンク

ScraperWiki

ScraperWiki has two new names! One for the product and one for the company: QuickCode is the new name for the original ScraperWiki product. We renamed it, as it isn’t a wiki or just for scraping any more. It’s a Python and R data analysis environment, ideal for economists, statisticians and data managers who are new to coding.

chiko 2010/08/09

scraping

リンク

Photo Tourism: Microsoft Research, Interactive Visual Media Group

chiko 2008/04/15

scraping

リンク

VIPS: a Vision-based Page Segmentation Algorithm :: SEM R

米Microsoftが開発中の検索エンジンに搭載されると思われる検索アルゴリズムに関する論文が同社サイト"Microsoft Research"にて公開されている。題名は『VIPS: a Vision-based Page Segmentation Algorithm』。ここで紹介されている"Vision-based Page Segmentation Algorithm"（以下、VIPS)にMicrosoftは力を入れているようだ。まずVIPSに関する概要から。 A new web content structure analysis based on visual representation is proposed in this paper. Many web applications such as information retrieval, information extr

chiko 2008/04/15

scraping

リンク

Web::Scraper プレゼン＠YAPC::EU: blog.bulknews.net

Web::Scraper プレゼン＠YAPC::EU YAPC::Europe でウィーンにきています。１日目の夕方に Web::Scraper のプレゼンをしました。時間が20分なのに前半に時間をかけすぎて尻きれトンボになってしまいましたが、いろいろフィードバックをもらえたのでよかったです。ウィーンを観光する時間はとれなそうですが、ドナウ川の周りを散歩してみて、古い建物が見事に街中にとけこんでいて、道路も広いしいろんなものが美しい街です。まわりがテラドイツ語で１人で店とかに入ると大変ですが、また機会があったらきてみたいですねえ。

chiko 2007/10/12

リンク

ゆーすけべー日記

サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一本吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。お礼に料理を作るとはいえ、サキの家には食材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい食材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ

chiko 2007/10/12

リンク

ブログが続かないわけ | Web::Scraper 使い方(超入門)

３年前にこの本に出会って、僕はスクレーピングの虜になった。おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。

chiko 2007/10/12

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

scrapingに関するchikoのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス