スクレイピングをやったことがあるひとならばわかると思うけど、スクレイピングはとてもつまらない作業だ。 HTMLの中から抜き出したい部分を見つけて、その周辺にある特徴的な部分に着目して正規表現を書いたりして抜き出す。あるいはHTMLからDOMを生成して特定のクラスがついているエレメントを抜き出したりする。HTMLをXHTMLに整形、変換してXPathで抜き出す方法もある。どの方法もやることは単純で簡単なことだけれど、極めてめんどくさい。 そういうものだと思って数年間過ごしてきたけれど、去年の夏に出てきた D... > このページを見る
最終更新時間:
2007年02月26日01時25分
みんなのブックマーク 人気(0) 新着
-
気をつけないと逮捕されるぞ
- webサイト作るときはスクレイピングしやすい(されやすい)ように作るべきって主張するんだけどあんまり受け入れてもらえない。
- 正規表現を書けないひとがスクレイプできるようにするためのGUIフロントエンド
- "Dapperが教えてくれたことは、スクレイピングなんて、欲しいところをクリックするだけのしょーもない作業だということ。"
- スクレイピング
- html to XML : htree
- スクレイピングはもっと簡単にならなければいけない - bits and bytes : Dapper: The Data Mapper
- Selenium IDE
- dapper
- スクレイピング用のツールを作るのも研究にはならないけど、なんとか卒論にはできるかな。
- programming
- タグを取り出すスクレイピングツール
- Dapperの話
- コレすごい簡単。やっぱこういう地味な作業はGUIに限るね。
- コレすごい簡単。やっぱこういう地味な作業はGUIに限るね。
- dapper について








