XHTMLなどからRDFグラフを抽出するGRDDLがW3C勧告となった。最初の草案が昨年10月下旬に出てから1年未満、GRDDL作業部会が設置された昨年6月から数えても15ヶ月と、最近のW3C規格の中では異例のスピードだ。現在のXHTMLとして完全に妥当な文書にRDF互換データを埋め込むことができ、使い方も分かりやすい。普及することを願うばかりだ。 HTML文書内にRDFメタデータを埋め込むという考えは、最初のRDFが1997年に勧告されたときから話題になっており、さまざまなアイデアが出されてきた。当初はXHTMLの中にRDF/XMLをそのまま記述するにはどうするか、いや、やはり妥当性検証ができないから外部RDF/XML文書にリンクすべきだ、といった議論が続いていたが、「どっちみち人間が読むための文書は作るんだから、そこからマシン用のデータを抽出するのがいいよね」という現実的な考えが出てく
これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の本文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。 今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・本文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。 動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた(考えていただけ)方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。 特徴的なのは、特定の言語に左右される
セマンティックWebは、今のインターネット世界(Web 2.0の世界)における恣意的に入力されたデータや異なるメタデータの統合を容易にする技術として、そしてエンタープライズ世界では従来の統合技術/統合製品で解決できなかった問題を解決する技術として、それぞれ有望であることを解説してきた。 最終回となる今回は「セマンティックWebの将来」と題し、コンシューマ世界ではWeb 2.0、エンタープライズ世界ではSOA(Service Oriented Architecture:サービス指向アーキテクチャ)を中心に、セマンティックWebがどのように関わり、発展していくかを解説する。 Web 2.0世界におけるセマンティックWebについては、「第2回:Web 2.0世界におけるセマンティックWeb」で「タギング/フォークソノミー、マイクロフォーマット」という具体的な例を題材に解説した。だが、Web 2.
This tool predicts a user's age, gender, and other demographic information, based on their online behavior, such as what queries they search online and what web sites they visit. It lets merchants learn more about their customers before bidding for keywords. Type a query or a Web address (URL), select Query or URL, and then click Go. Query examples: real estate, dodge caravan, dodge pickup, xbox
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く