タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

scrapingに関するchikoのブックマーク (9)

  • Ruby/scrAPIを試してみる:TKMR.blog.show

    RSS翻訳のWebサービスあって良いと思うのに、どうも無さそう?。 RSS ⇒ 翻訳サイト ⇒ 翻訳RSSということできれば良いけど、WebAPIを公開してる翻訳サービスって意外に少ない。。WebserviceX.NET :: Web Servicesってとこが公開してるけど、SOAPだしちょい微妙&scrAPIを使ってみたい。ということで普通の翻訳サービスをスクレイピングして無理矢理やる。まずscrAPIをインストール gem install scrAPI gem install tidy scrAPIのチートシートがあったので参考にしつつ。もしこういうHTMLを読み込むとしたら <div.post_show> <h2><a href="http://hoge">タイトル~</a></h2> <h5>2006-12-01</h5> <div> 文とか </div>

  • String#scrape - ヽ( ・∀・)ノくまくまー(2007-01-15)

    ● String#scrape どうせお前らはあれだろ、scrAPI は強力だし、これこそ自分がまさに待望してた道具、使いこなすぜ!と意気込んでるんだけど、どれだけ決意してもあの複雑な引数に毎回挫折しちゃって、挫折つーかちょっと使いたいだけなのにパーザ(Scrape)用のクラスを定義するのが面倒なんだよね、みたいな言い訳を毎回自分にしつつ、結局使いこなせてない脳内ゆとり世代のお前らなんだけど、まぁ実際引数に無駄に色んな機能を詰め込み過ぎてる感は否めないし、というかextractorのsrcとdstはどう見ても直感的に逆だろ、grepみたいに使わせろよ使えない1だな、みたいな愚痴をこぼしてたら、むしろCSS3なgrepとして使えるだけでいい事に気付いて、You、Stringクラスに入れちゃいなYO! String#scrape の定義 require 'scrapi' class Strin

  • Ruby でスクレイピングするなら scrAPI の parser_options とか WWW::Mechanize の Pageオブジェクト とかに気を付けろ!! - (゚∀゚)o彡 sasata299's blog

    2009年07月10日03:15 Ruby Rubyスクレイピングするなら scrAPI の parser_options とか WWW::Mechanize の Pageオブジェクト とかに気を付けろ!! タイトルの通りですが、Rubyスクレイピングするときって、scaAPI とか WWW::Mechanize を利用するんではないかと思います。hpricot とかも使うかも知れませんが・・。ってことで、自分で実際に使ってみたときに困ったことなどをまとめてみました〜。 scrAPI - スクレイピングのお供 Ruby で scrAPI を使うときにはこのように process に取得したい要素をセレクタで指定したり、取得する値("@src" とか :text とか)を指定したりします。以下のようにすると、imgタグのsrc部分を抽出して data[:urls] に、aタグのテキス

  • ScraperWiki

    ScraperWiki has two new names! One for the product and one for the company: QuickCode is the new name for the original ScraperWiki product. We renamed it, as it isn’t a wiki or just for scraping any more. It’s a Python and R data analysis environment, ideal for economists, statisticians and data managers who are new to coding.

  • Photo Tourism: Microsoft Research, Interactive Visual Media Group

  • VIPS: a Vision-based Page Segmentation Algorithm :: SEM R

    Microsoftが開発中の検索エンジンに搭載されると思われる検索アルゴリズムに関する論文が同社サイト"Microsoft Research"にて公開されている。題名は『VIPS: a Vision-based Page Segmentation Algorithm』。ここで紹介されている"Vision-based Page Segmentation Algorithm"(以下、VIPS)にMicrosoftは力を入れているようだ。 まずVIPSに関する概要から。 A new web content structure analysis based on visual representation is proposed in this paper. Many web applications such as information retrieval, information extr

  • Web::Scraper プレゼン@YAPC::EU: blog.bulknews.net

    Web::Scraper プレゼン@YAPC::EU YAPC::Europe でウィーンにきています。1日目の夕方に Web::Scraper のプレゼンをしました。 時間が20分なのに前半に時間をかけすぎて尻きれトンボになってしまいましたが、いろいろフィードバックをもらえたのでよかったです。 ウィーンを観光する時間はとれなそうですが、ドナウ川の周りを散歩してみて、古い建物が見事に街中にとけこんでいて、道路も広いしいろんなものが美しい街です。まわりがテラドイツ語で1人で店とかに入ると大変ですが、また機会があったらきてみたいですねえ。

  • ゆーすけべー日記

    サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。 お礼に料理を作るとはいえ、サキの家には材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ

    ゆーすけべー日記
  • ブログが続かないわけ | Web::Scraper 使い方(超入門)

    3年前にこのに出会って、僕はスクレーピングの虜になった。 おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。 ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。 そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。

    ブログが続かないわけ | Web::Scraper 使い方(超入門)
  • 1