タグ

ブックマーク / s-teramo.hatenadiary.org (1)

  • dblp.xml から expat をつかって共著者を抽出 - 日記

    最近、dblp データのスナップショットが、web で公開されているのを知りました (copyrightは、dblp.dtd内にあります)。これを使って、自分と距離が近い研究者のグラフが表示したいなぁと思います。今日は、expat を使って、対象の著者の共著者リストを取り出すとこまでの覚書です。 (追記:ここに、ソースファイルを掲載しました。よろしければどうぞ) まずは、xml のパーサ選びからはじめます。言語はとりあえずc/c++ってことにしています。xerces, expat, rxp などがあるようです。2009年7月現在でdblp.xmlのサイズが約600MBあります。全体の構造を保持したりするのはちょっと大変ですね。それから、DOMも必要ないし、パフォーマンス重視ということで、expat を採用しました。 expat を google で検索すると、簡単なチュートリアルが見つかる

    dblp.xml から expat をつかって共著者を抽出 - 日記
    comogly
    comogly 2010/01/04
  • 1