W3CのオンラインXSLTサービスが新しくなって、文字コードの扱いが改善された。以前はUTF-8以外の文字コードは即座にJavaの例外を引き起こしていたのだが、今回はShift_JISでもEUC-JPでもちゃんと処理できている。これによって、日本語XHTMLページからGRDDLでRDFを容易に抽出できるようになる、はずだ。 XHTML文書からRDFを抽出するには、たとえば当サイトの汎用XSLT(xh2rdf.xsl)をこのオンラインサービスで適用すればよい。整形式を満たしている文書なら、タイトルや見出しがメタデータとして取り出され、要約やキーワード、作者の連絡先があればそれも含めたRDFが得られる。 XHTML: さらに、head要素のプロファイルとしてhttp://purl.org/net/ns/metaprofを記述していれば、W3CのGRDDL demoページから直接RDF抽出を行う