タグ

2009年4月30日のブックマーク (2件)

  • ぶいてく: 【HTML5】 HTMLなのかXMLなのか、それが問題だ

    HTMLとXMLの大きな違いは、要は、すべての開始タグと終了タグが対になっている(Well-Formed)かどうかである。Well-formedでなければパーサで処理できないためデータとして扱えなくなる。Well-formedでないHTML文書はスクレイピングを行って、構造化されたデータを引っ張り出してXMLに変換しなければならない。英語で"scrape"とは「削ること」。構造化されていない部分は機械的に削ることはできないため、意味のある部分を「人」が判断して例外があれば対応していくといった不毛な処理の積み重ねを行う必要がある。  これまでWeb2.0の明るい技術として語られてきたセマンティックウェブは、Well-formedなXMLであることが前提とされる。RSS、ATOMやマイクロフォーマットなどによるメタデータ化、つまり、CGMを作成する側において、あらかじめ検索を行いやすい状態に加

  • ぶいてく: 【HTML5】 セマンティック・ウェブにXMLはいらない?

    最近、HTML5の話題をきっかけにセマンティック・ウェブとXMLの問題を考えるようになった。 セマンティック・ウェブの命題は、ウェブページの閲覧という行為に、データの交換の側面に加えて意味の疎通を付け加えること。意味の疎通のためには、「語彙」の定義が重要で、データの交換のためには「構造」の定義が重要となる。例えば、DBpediaの「CoolURIとして定義された語彙」をリンクするHTML文書は、セマンティック・ウェブの命題をほぼ達成していると思える。 <参考> Kanzakisan'ちょっとしたメモ DBpediaは、英語版を中心にWikipediaから構造化されたデータを抽出し、RDFの形で提供しているもの。抽出した語彙には、リンクするデータとして利用可能なURIが与えられている。たとえば、WikipediaのRoger Norringtonに対応するデータは、次のURIで表現される。