01:08 | もう一つ。node.js には npm という Ruby の gem、Python の setuptools/pypi、Perl のCPAN、PHPの... 的なモジュールがあります。昨今、使うばっかりじゃダメだ、と思っているので、とりあえず自分がすぐに必要だったHTMLの本文抽出ライブラリを node.... 続きを読む
WebDB Forum, 本文抽出昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 本文抽出」について話をさせていただきました。 CRF を使った Web 本文抽出 for WebDB Forum 2011 View ... 続きを読む
やっぱ jQuery 便利ですよ(*´・ω・)(・ω・`*)ネー セレクタ使って jQuery でダカダカやってると、DOM とか正規表現でネチネチやるのがバカらしくなっちゃいます。 と日頃から思ってたりしてまして、サーバサイド JavaScript がメインストリームになって、jQuery ... 続きを読む
Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。そうではないみなさんには少々の説明が必要かと思いますので少々書きます。ScraperWiki はスクレーパ(Web ページをス... 続きを読む
YQL is a great tool to scrape HTML from the web and turn it into data to reuse. This is not an illegal act as it can be very useful to reuse information maintained for example on a blog. My personal portfolio page http://icant.co.uk gets most... 続きを読む
前回環境を作ってからなんやかんやでiTermに戻ってた.iTermは最新版では機能的には良い感じになってたけど,その変わりもっさり具合がひどくなってて,特にVimでNERD_treeを表示していると1秒間に2行ぐらいしかスクロールできないほど重い感じ.というわけで,... 続きを読む
レベル: 中級M. Tim Jones (mtj@mtjones.com), Consultant Engineer, Emulex 2006年 11月 14日Web スパイダーとは、ユーザーに代わってインターネットを巡回して情報を収集、フィルタリング、そして場合によっては集約するソフトウェア・エージェントのことです... 続きを読む
まえに作ったWeb::Scraperのjavascriptバージョンwebscraper.jsとXPathをてきとうに作ってくれる機能を追加したwebscraperp.jsにHTMLのドキュメントから繰り返し部分をみつけてSITEINFOをつくるAutoPagerize Iteration Detectorみたいなみためをくっつけて、取... 続きを読む
Posted by: Hirotaka Ogawa @ April 13, 2006 02:33 PM | Google Calendar、北ー! Google Calendar サイボウズなどのオンラインスケジューラを読み込んで、Google CalendarにiCal形式でポストできるPlaggerのモジュールがあればなあ。そうすればOutlookは完全... 続きを読む
perlのWeb::Scraperみたいな記述で、ページの中からデータを取り出すwebscraper.jsという小さなjavascriptのライブラリを書きました。 ブックマークレット データを取り出したいページでブックマークレットでwebscraper.jsを読み込んでFirebugコンソールで使い... 続きを読む
ページから必要な部分だけをXPath式で抽出するPHP製汎用スクレイピングライブラリを作った要約:ページから必要な部分だけをXPath式で抽出するPHP製汎用スクレイピングライブラリを作ったいままでスクレイピングを使ったサービス(レシピ検索、書籍在庫一括検索... 続きを読む
pipesこのブログでも何度か Yahoo! Pipes の話題は取り上げてきましたが、先日実装された「Page Fetch」モジュールは素敵すぎます。ほんとに。今まで、Yahoo! Pipes といえば、XML・CSV か Yahoo が提供してるサービスのデータを加工することしかできませんでし... 続きを読む
まとめサイト2.0: 2008年、Webは文字列解析で変わっていく オルタナティブ・ブログを例に挙げて“まとめサイト”を作るための手法を紹介してきたこの連載。最終回は、文字列解析の自動化からキーワードを抽出するための方法を紹介しよう。 (2007/12/28) まと... 続きを読む