basiのブックマーク - はてなブックマーク

basi id:basi

ブックマーク / labs.gmo.jp (2)

Web::Scraperのjavascriptバージョンwebscraper.js - bits and bytes
perlのWeb::Scraperみたいな記述で、ページの中からデータを取り出すwebscraper.jsという小さなjavascriptのライブラリを書きました。ブックマークレットデータを取り出したいページでブックマークレットでwebscraper.jsを読み込んでFirebugコンソールで使います。ブックマークレット webscraper コードwebscraper.js つかいかた Web::ScraperのSYNOPSISで例としてあげられているebayでapple ipod nanoを検索した結果からデータを取り出すときは検索結果ページで上のブックマークレットを呼び出してFirebugコンソールで取り出す部分を記述します。こんなかんじ。 SYNOPSISのperlのコードで変数$ebay_auctionに一度代入されている部分をそのままインラインで書き直すと my $e
basi 2008/12/26
js

scraping

web

xpath

スクレイピング

lib

library
リンク
HTMLのドキュメントから繰り返し部分をみつける - bits and bytes
RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(it em要素)のタイトルと本文を単語の統計的に処理して決定し、フィードを生成していると書かれています。ウェブ上にあるHTMLドキュメントは Ask.jp ： "xml" Search results. のように、RSSのit em要素に相当する部分に日付が含まれていないものもあります。その中でも、大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成するブログラムをjavascriptで作りました。アプローチ大量のデータを複数のページわけて表示しているドキュメントを
basi 2007/11/07
形態要素解析

javascript

bookmarklet
リンク
1

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

はてなブックマーク

タグ

ブックマーク / labs.gmo.jp (2)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / labs.gmo.jp (2)

Web::Scraperのjavascriptバージョンwebscraper.js - bits and bytes

HTMLのドキュメントから繰り返し部分をみつける - bits and bytes

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス