タグ

ブックマーク / www.kanzaki.com (40)

  • Web NDL Authoritiesの設計

    Web NDLAとは Web NDLSH 国立国会図書館件名標目(NDLSH)をRDF化(2010) 作品の主題(キーワード)を表現するための統制語彙 基盤データベースから出力したMARCテキストデータを元にRDFに変換 国立国会図書館が件名標目データをテキストで公開→RDF版を試作(2006) 約10万件の標目を約130万トリプルのRDFで表現 Web NDLA Web NDLSHに人名、団体名、地名、統一タイトルなどの名称典拠(NDLNA)を追加してWeb NDLAに(2011) MarcXMLとして出力されたデータをRDF化 約110万件の典拠、標目を約1500万トリプルのRDFで表現 既存データからのRDF生成 データの解析 レコードが記述している対象(実体)の把握 レコードの属性と実体の対応付け RDFモデルの設計 URIの設計 各実体を記述するモデル データセット内外のリンク関

    kits
    kits 2012/01/19
    「約110万件の典拠、標目を約1500万トリプルのRDFで表現」
  • リンクするデータ、未来へのリンク

    Long Live the Web ウェブとはユニバーサリティであり非集中である Tim Berners-LeeのScientific American 12月号の記事 これを実現する基がURI。データにURIを与えて公開しよう SNSや囲い込みストアのようにリンクできないものはウェブを分断する (Illustration by John Hendrix) セマンティック・ウェブ URIによる識別とRDFのデータモデルをベースに、意味論などの重層的な技術階層 全体像は複雑すぎて簡単には使えない → 基層だけでも現実的に利用できる バーナーズ=リーのLinked Data WWWが文書のハイパーリンクで発展したように、データ共有もリンクで発展する URIを識別だけでなくリンク(参照解決可能)にも用いる Linked Dataの4原則を提案 リンクするデータの4原則 ものごとをURIで名前

  • ARC2によるRDFグラフの視覚化: Turtle, Microdata, JSON-LD, RDF/XML, TriG

    music & knowledge sharing RDFグラフの視覚化 Turtle, Microdata, JSON-LD, RDF/XML, TriGテキストエリアにTurtle、JSON-LD、RDF/XML、TriGもしくはMicrodataで記述したRDFを入力し、「グラフ描画」ボタンを選択してください。MicrodataはHTML断片でもかまいません。URIをコンパクトに描画したい場合は「URIを修飾名表記する」チェックを有効にしてください。 Input Turtle, Microdata, JSON-LD, RDF/XML or TriGserialized RDF in the textarea and select "Draw" button. Microdata can be a fragment HTML.

    kits
    kits 2009/07/06
    RDFa視覚化ツール。
  • セマンティックHTML? KISS!

    Keep It Simple, Stupid ウェブの文書とデータ 人間が読むためのウェブ文書にはさまざまな情報が詰まっている コンピュータ(エージェント/処理ソフト)はHTMLから文書構造の大枠を把握して提示できるが、内容(データの意味)は基的に関知しない コンピュータ処理用のデータは別途用意する? 両方まとめて、シンプルにしよう! HTML文書中のデータをコンピュータ処理も可能にする HTMLのシンプルさを生かすことが大切 しかしコンピュータにとっても明快でシンプルであること だからセマンティックHTML ウェブリソースの型と関係 ウェブ文書中のデータを明示するためには 文脈によらない識別(名前付け):何が同じで何が異なるかを明確にする データはどんなタイプ(型)か:文書について? あるいは文中の映画について? データどうしの関係:この日付は映画の封切り日? 映画を観た日? ウェブ文

  • ちょっとしたメモ - 『セマンティックHTML/XHTML』予約開始

    新刊『セマンティックHTML/XHTML』の案内がマイコミの書籍セクションで公開され、アマゾンでも予約が始まりました。奥付の発行日は5月30日で、書店に並ぶのもほぼその頃になる見込みです。 なんとも絶妙のタイミグで、HTML5に「マイクロデータ」という提案が登場して議論になっていますが、さすがにもう間に合わないので、これについては今後メモなどでフォローしていきます。もっとも、マーク付けの構文は書の内容の一部分であって、基的な考え方はHTML5でも同様に適用できるはずなんですが。 現在、最後の念校を行なっているところで、これが完了したらあとは下版して印刷所に送り、刷り上がりを待つばかり。当サイトの書籍情報ページは、近く公開する予定です。

  • ちょっとしたメモ - セマンティック・マーク付け本ようやく脱稿

    さて、昨年夏から格闘していたセマンティック・マーク付けに関するの原稿をようやく書き上げ、出版社に送りました。仮タイトルは『セマンティックHTML/XHTML』で、毎日コミュニケーションズから5月下旬に刊行予定です。5年ほど前からの企画はありながら、なかなかまとめられずにいたのですが、昨年とあるプロジェクトが没になったのを機に、集中してこのに取り組み、何とか脱稿にこぎつけました。 セマンティック・マーク付けとは、普通のウェブ文書の中に含まれるイベントや人物などの情報を、ソフトウェア・エージェントでも扱えるように明示することで、人間が読むための文書(文書のウェブ)を、同時にコンピュータにも処理できる情報(データのウェブ)にしようという試みです。何度か取り上げたGRDDLやマイクロフォーマットもその一種ですし、最近ではRDFaという仕様がW3C勧告になり、注目を集めています。このは、そう

  • ちょっとしたメモ - FavikiとタグとDBpedia

    先日登場した新しいブックマークサービス Faviki は、ユーザがタグを与えるときに、英語Wikipediaに登録された語句を候補として提供することで、語彙のゆれ(同義語の問題)を解消しようという特徴を持つ。さらに、タグとWikipediaの連動により、多義語の問題(Operaは歌劇かブラウザか)をも解決する可能性を示す。UIも工夫されており、タグを巡る困難へのひとつの答えともいえる。 タグの共有 以前「タグとオントロジー」で検討したように、タグを広く共有するためには、同義語、多義語の問題を処理する必要がある。アプローチとしては、 従来のタグシステムを前提として、ユーザが自由に与えたタグから、統計的な手法を利用して共通項を見出していく方法と、 ユーザがタグを与える時点で、そのタグを共有可能なもの(統制されたもの)にする方法 が考えられた。Favikiの場合は、後者の立場で、与えられるタグ

  • ちょっとしたメモ - alt要素?

    alt要素なんて、もちろん今の仕様には存在しないわけだけれど、それらしきものが検討された様子がある…という話を、何かのページの一部に書いたような気がするのだが、消してしまったみたいなので、思い出しながら書き記しておこう。検討の痕跡が残っているのは、XHTMLモジュール化仕様のDTD実装ページだ。 このページのF.2.5. XHTML Qualified NamesのセクションBは、「XHTMLの全要素型の名前空間修飾名を提供するためのパラメータ実体を宣言する」とされている。つまり、このセクションでxxx.qnameという形の定義があれば、xxxはXHTMLの要素型名として用いられる(と想定されている)ことをあらわす。このセクションの最後には、次のような記述がある。 <!-- Provisional XHTML 2.0 Qualified Names ....................

    kits
    kits 2008/05/22
    alt要素解説
  • ちょっとしたメモ - metaprofのブロックレベル要素処理を強化

    metaprofをプロファイルに指定してGRDDLで処理するとき、ブロックレベル要素に接頭辞付@class属性値を用いると型付ノード要素を生成しますが、文書自身とこのノードをfoaf:topic以外のプロパティで結び付けたいという要望を見かけたので、対応してみました。@classに、プロパティをあらわす値を付け加えるだけで、任意のプロパティを利用できます。 要望であげられていた例を使うと、 (例) <dl class="prism.isTranslationOf foaf.Document"> <dt>Original Page</dt> <dd><a href="http://www.alistapart.com/articles/previewofhtml5" class="about">A List Apart: Articles: A Preview of HTML 5</a></

  • ちょっとしたメモ - HTML5はモジュール化しないの?

    HML5の最初の草案が公開されたが、まともに印刷すると400ページ以上になる分量を読むのはなかなか大変。それなのに仕様は、First, it should be read cover-to-cover, multiple times. Then, it should be read backwards at least once. Then it should be read by picking random sections ...なんてことを要求している。まぁそれはともかく、こんな巨大な仕様は、モジュール化するのが吉というのが、HTML4実装の教訓だったんじゃないのかな。適切に設計すれば、「HTML5の○○が気に入らない」という相反する意見も、モジュールの組み合わせでうまく行くかもしれないのに。 さまざまな機器でウェブにアクセスするようになり、またその利用目的もオンライン取引からソー

    kits
    kits 2008/01/24
    WebApp1.0ではじめの頃そのように思ってました。
  • フォームとアクセシビリティ -- ごく簡単なHTMLの説明

    フォームはテーブルと同様、視覚的な表現を伴わないと理解しにくいところがあります。HTML4.0では、フォームの各要素とラベル(説明的な名前)を結びつける手段や、要素をグループ化する手段が提供されました。これらを使うとフォームの内容を論理的に構造化でき、スタイルシートとの組合せで自在なデザインも可能になってきます。まだ未対応のブラウザが多い要素ですが、アクセシビリティに配慮したページづくりのためにも、このような機能があることをぜひ理解しておいてください。 目次: コントロールにラベルを付ける コントロールをグループ化する メニュー項目のグループ化 キーボードによる項目移動 取り上げる要素: label fieldset legend optgroup コントロールにラベルを付ける フォームの入力コントロール(テキストフィールドやメニューなど)は、name属性を持ちますが、それは送信データに名

    kits
    kits 2008/01/18
    accesskeyを押したときに対象のリンク要素がfocusされるのかactivateされるのかは、ブラウザによって実装が異なる。
  • ちょっとしたメモ - SPARQLがW3C勧告に

    ウェブ上でRDFデータの照会を行うSPARQLが15日付でW3C勧告となった。仕様は、問い合わせ言語SPARQL Query Language for RDF、プロトコルSPARQL Protocol for RDF、クエリ結果のXMLフォーマットSPARQL Query Results XML Formatの3つ。バーナーズ=リーのことばを借りれば、ようやくデータベースとしてのウェブのためのSQLが標準化されたわけで、分散する多様なデータへの一貫したアクセスが可能になる。 SPARQLはすでに多くの言語で実装されていて、JavaのJenaライブラリ、PerlのRDF::Query、PHPのARC、PythonのRDFLib、さらにいろんな言語から使えるRasqal RDF Query Libraryなどが揃っている(サポート具合は差があるので、実装状況調査を参照)。 SPARQLクエリを

  • ちょっとしたメモ - HTML4の10周年

    HTML4の初版がW3C勧告となって今日でちょうど10年。せっかくだから祝辞でも書こうかなと思ったけれど、もはや水か空気のようなものだし、ことさらに述べるほどのことも思い浮かばない。HTML4/XHTML1では不十分だからより良い新しいHTML/XHTML仕様を作ろうという話については、特に反対はしないものの、ミネラルウォーターでなくても水道水で十分なんですって感じ。当面の目的には、浄水器(@profile/GRDDL)という現実解もあるんだし。 HTML4は、ある種W3C的な理想像にかなり真正面から取り組んでいて、10年前にそこから感じた熱い信念は、今見ても古びていないように思う。もちろん人間がその時の環境の中で編纂した仕様だから、完全というわけには行かないが、最近になってようやく注目され始めたa要素の@rel属性とかhead要素の@profile属性のように、なかなか奥深い部分もある。

    kits
    kits 2007/12/18
    「ミネラルウォーターでなくても水道水で十分なんですって感じ」
  • ちょっとしたメモ - 今どきのXHTMLメディアタイプ

    XHTML Media TypesがW3C Noteとして発行されて5年以上になるというのに、XHTML 1.0文書をずっとtext/htmlとして提供してきたわけだが、このほどAcceptヘッダにapplication/xhtml+xmlが含まれる場合はこのMIMEタイプでリソースを送る設定に変更した。最近のいろいろな試行を通じて、この必要性がかなりはっきり見えてきたからだ。 application/xhtml+xmlその理由 文書が整形式XMLになっていさえすれば、メディアタイプに関係なくXSLTなどのツールは利用できる。それに加えて、IE問題回避のために小細工する必然性が見出せなかったこともあり、このサイトではtext/htmlを使い続けてきた(その代わり整形式の重要性を一所懸命、訴えていた)。ここにきてそれが翻ったのは、この2~3ヶ月ほど繰り返していたLinked Dataの試行を

  • ちょっとしたメモ - metaprofと文書トピックの主語URI

    XHTML文書の要素に一定の規則に基づいたクラス属性を与えているとき、文書プロファイルにmetaprofを用いればGRDDLでRDFグラフが簡単に抽出できるようになるが、これまでは文書のトピックにURIを付与することができなかった。これを改良する新しいルールを変換スタイルシート追加したので、とりあえずお知らせを。 従来のmetaprof(の変換スタイルシート)の規則は、ブロックレベル要素に大文字で始まるクラス属性値、もしくはdc.、foaf.などの特定の接頭辞をつけたクラス属性値を与えておけば、それを適当なRDFの型付要素に置き換えて、文書のトピックを構成していた。たとえば、 (例) <p class="foaf.Image"> <img src="http://..." alt="xxx" /> <span class="date">2007-10-05</span> by <span

  • ちょっとしたメモ - GRDDLがW3C勧告に

    XHTMLなどからRDFグラフを抽出するGRDDLがW3C勧告となった。最初の草案が昨年10月下旬に出てから1年未満、GRDDL作業部会が設置された昨年6月から数えても15ヶ月と、最近のW3C規格の中では異例のスピードだ。現在のXHTMLとして完全に妥当な文書にRDF互換データを埋め込むことができ、使い方も分かりやすい。普及することを願うばかりだ。 HTML文書内にRDFメタデータを埋め込むという考えは、最初のRDFが1997年に勧告されたときから話題になっており、さまざまなアイデアが出されてきた。当初はXHTMLの中にRDF/XMLをそのまま記述するにはどうするか、いや、やはり妥当性検証ができないから外部RDF/XML文書にリンクすべきだ、といった議論が続いていたが、「どっちみち人間が読むための文書は作るんだから、そこからマシン用のデータを抽出するのがいいよね」という現実的な考えが出てく

    kits
    kits 2007/09/13
  • ちょっとしたメモ - CSS2.1の勧告候補と検討事項リスト

    CSS2.1がようやく(再度)勧告候補にこぎつけた。今度こそは草案差し戻しなどということなく進んでいくだろうが、テストケースや実装確認もあるので、年内はCRに留め置くということだ。このCSS2.1は、PDF版で405ページ。1998年のCSS2勧告は338ページだから、単純に分量だけでも2割増で、記述の修正なども含めると、実はかなり大きな違いがある。バグ修正やブラウザの実装に合わせただけのものではなく、よりモデルを厳密に定義したり詳しく説明しているので、CSSに関心がある人は、そろそろ2.1の内容を確認しておくのがよいかも。 今回の勧告候補は、昨年11月の草案をおおむね引き継いでおり、かなり安定しているといえるが、多少の修正や明確化もある。11月草案との違いが検討事項リストの形で示されているので、主なものを確認しておこう(以下、項目名の数字は検討事項番号、リンク先は検討事項リストの対応する

    kits
    kits 2007/07/24
  • ちょっとしたメモ - 宿題:body要素内からのprofileもしくはGRDDL

    「名前のウェブとXHTML文書のプロファイル」をお話したとき、「ウェブログサービスなどでhead要素に手を加えることができない場合、body内部でプロファイル指定(あるいはGRDDL呼び出し)をする方法はないのか」という質問をいただきました。その場では即答できず、宿題ということにさせていただいたので、GRDDL仕様の検討事項(issues)での状況と、他の規格を組み合わせる可能性について報告しておきます。一言でいうと、「GRDDLではその必要性は提起されているが、結論は先送り。“リソース群”についての記述を利用すれば可能かも」というところです。 GRDDLのissue-tx-elementと題された検討事項では、ちょうど上記の質問と同様に、「XHTMLの一部だけを編集できる環境でクリエイティブ・コモンズ・ライセンスをa要素に記述するとき、rel属性値はどうすればよいのか」という疑問から出発

  • ちょっとしたメモ - GRDDLがW3C勧告案に

    日曜日に「名前のウェブとXHTML文書のプロファイル」と題して《profile属性をうまく使うとclass属性値が共有できて、しかもGRDDL経由でRDFが抽出できるよ》という話をしたら、まさにその翌日、当のGRDDL仕様がW3C勧告案となった。タイミングよいというか、何かいいことありそうな感じ(期待)。内容は5月の勧告候補とほぼ同じで、8月24日までのレビューを経ていよいよ勧告に進む。 勧告候補と比べて違っているのは、Appendix Bとして基底IRI/URIの扱いが詳しく記述されたところ。GRDDLは処理途中に中間的なRDFグラフを生成したりするので、最終的なグラフの基底IRIをどう扱うかを明確にしておく必要があった。また、XHTMLではあまり関係ないが、XML文書一般ではルートノード以外にもxml:baseが設定されることもあるため、このあたりも含めるとそれなりに複雑な話になる。

  • 名前のウェブとXHTML文書のプロファイル

    情報は伝わるか? そもそも情報は伝わらない… 生命情報:生物が世界と関係することで出現する、意味のある(識別できる)パターン 観察者(主体)が世界をどのように捉えるか(関係)を表すパターン。人によってその関係=パターンは異なるので、完全には伝えられない。 社会情報:生命情報を人間が(ことばとして)記述する 共同体(国家、コミュニティ…)での共通了解=意味のとりあえずの固定(規範化作用) 機械情報:言葉の記号作用の「記号表現」だけを取り出したもの コンピュータ、ネットワーク上のデータとして蓄積、交換される (西垣通 『ウェブ社会をどう生きるか』) そこを何とかうまく伝えるためには 明晰な論理と文章 分かりやすい情報のかたち 互いに理解できる名前 情報の伝達と名前 機械情報を介した情報のコード化と再構築 情報が伝わるためには、まず社会情報が適切に再現される必要がある 同じ社会情報でも人によって