タグ

XMLに関するGuroのブックマーク (24)

  • 書籍検索APIは結局どれが一番いいのか - Qiita

    Abstract 世の中にはいくつか書籍検索APIがあるわけですがそれぞれについてまとめました.ただそれだけだと既存の記事の焼き直しになってしまうので500冊のデータセットについて各APIがどの程度の書籍を網羅しているかとAPIの応答速度を集計しました. 題の前に データセットについて 書籍検索系のAPIでは対応している書籍の数が気になると思います.書籍検索APIについてまとめた記事は数多くあるのですが,そのAPIが何冊のに対応しているかというのはわかりません.ある程度定量的な話ができるように自分が今まで読んできたから無作為に抽出した500冊ののISBNコードデータセットを利用します. ISBN-10 から ISBN-13の変換 ISBNコードと一口に言っても10桁のものと13桁のものがありなかには13桁のISBNコードにしか対応していないAPIがあります.今回のデータセットはIS

    書籍検索APIは結局どれが一番いいのか - Qiita
  • 国立国会図書館APIを使いやすくするためのPythonライブラリを作成しました|shimakaze_soft

    とある個人プロダクトを作ろうと思いついた時に、自分で欲しいなと思ったたのもあり、Pythonでとあるライブラリを作成してみました。 今回開発したものJpndlpyという名前の国立国会図書館から情報を取得するHTTPクライアントライブラリを作成しました。 国立国会図書館は、書籍タイトルや著者などの図書情報をAPIとして公開しています。国立国会図書館APIはいろんなプロトコルでAPIを公開しており、今回はOpenSearch形式のAPIからHTTPで図書情報を取得するためのPythonから使えるHTTPクライアントのライブラリを作成しました。 GitHub内などを探してみても同じような物を作っている方がいなかったため、自分が欲しかったというのもあり、開発してみました。 PyPiにも公開しましたので、随時アップデートしていく予定です。 国立国会図書館とは国立国会図書館とは、日国内で発行された

    国立国会図書館APIを使いやすくするためのPythonライブラリを作成しました|shimakaze_soft
  • rdvocab.info → rdaregistry.info の件 - ささくれ

    おとといカレント-Rで流れた「RDAのエレメントセットの名前空間、RDA Registry.infoを更新」というニュースに、びくっとしました。 これまで、同委員会では公開されたレジストリであるOpen Metadata RegistryにRDAエレメント等を登録し、名前空間を定義し、http://rdvocab.infoを利用して語彙へのURI付与を行ってきました。 RDA Registry.infoでは、RDAのエレメントセットに加えて、RDAのエレメントセットを利用する際の事例やデータセット、RDAのエレメントとその他の名前空間とのマッピングなど、RDAに関する情報をまとめて提供しているとのことです。RDAのエレメント等の名前空間のURIにはhttp://rdaregistry.info/が付与されているようです。 というのも仕事(eXtensible Catalog)で名前空間が

    rdvocab.info → rdaregistry.info の件 - ささくれ
    Guro
    Guro 2014/06/13
    ようやくこのあたりまで(浅はかな理解が)つながるようになってきた気がしているのに、まだまだ混沌があるのか、とか。
  • 国立国会図書館デジタルコレクションの書誌メタデータを刈り取ってみた - 2sc1815jの日記

    先日、国立国会図書館サーチ(以下、NDLサーチ)が提供するOAI-PMH(ハーベスト用API)を利用して国立国会図書館デジタルコレクション(以下、国デコ)のメタデータ(書誌情報)を取得してみた。 ごく一部の方([twitter:@uakira2]さんや[twitter:@yuta1984]さん)の参考になることもあるかもしれないので、メモ。 問:近デジ図書資料の内訳(PD/非PD)は? 今年4月、インプレスR&D×Amazonの『NDL所蔵古書POD』に関するプレスリリースに、「現在、近代デジタルライブラリーには、約35万点のパブリックドメイン古書が登録されています」との記述があった。 しかし、近デジで公開されている約35万点の図書には、著作権保護期間満了のほかに、著作権者の許諾や文化庁長官の裁定を受けたものも含まれるため、「約35万点のパブリックドメイン」は正しくない。 では、約35万点

    国立国会図書館デジタルコレクションの書誌メタデータを刈り取ってみた - 2sc1815jの日記
  • 情報の構造化@Linked Open Data連続講座(2014.6.2)

    学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -National Institute of Informatics

    情報の構造化@Linked Open Data連続講座(2014.6.2)
    Guro
    Guro 2014/06/03
    昨日の講演のスライド。 lodi
  • CiNii Books APIでNDCが出力されない件 - ささくれ

    前も似たようなこと書きましたが. 近々数千冊の図書がやってくる→書架を空けないと→どのあたり(請求記号)をどのくらい空けたらいいんだろう?→目録登録前なので請求記号は決まってないけど図書のリストはあるようだ→そのリストにISBNが入ってればCiNii Books APIでNDC引っこ抜いてきてざっくりとした分布は把握できるんじゃないか? ……という話になったのですが. ISBNをキーにしてOpenSearchを呼び出し, http://ci.nii.ac.jp/books/opensearch/search?isbn=9780071748896 RDFのURLを抽出して, http://ci.nii.ac.jp/ncid/BB06372916.rdf RDFからNDCを抜き出……あれ?ない? http://ci.nii.ac.jp/ncid/BB06372916.rdf http://ci

    CiNii Books APIでNDCが出力されない件 - ささくれ
  • Works > ichiba

    *2015.04 修士論文、発表論文5,6を追加。進学して博士後期課程所属となりました。オントロジーを使った書誌記述を実践するための文化財データ提供先を探しています。 *2014.06 発表論文3,4を追加。研究も今年で3年目。貴重書書誌オントロジーのモデリングと実際のデータ変換手法まで少しまとまりました。2014JSAIでFRBRooを基にしたオントロジー構築の部分を重点的にまとめました。オントロジー構築はデータ設計の一般化とWebでの共有に必須だと伝えたいところなんですが...JSAI開催地の松山市は当に良いところでした。市電と温泉と城と正岡子規と秋山兄弟で私の心をわしづかみでした。愛媛大学に行けばよかったなどと思ったりしました笑 *2013.06 富山市の第27回人工知能学会全国大会のオーガナイズドセッションおよびインタラクティブセッションに参加しました。 *2013.01 Lin

    Guro
    Guro 2013/01/29
    「Web NDLA Authorities(国立国会図書館典拠データ)を利用した名寄せと書誌情報の検索およびタイムラインを使った可視化」
  • ScraperWiki

    ScraperWiki has two new names! One for the product and one for the company: QuickCode is the new name for the original ScraperWiki product. We renamed it, as it isn’t a wiki or just for scraping any more. It’s a Python and R data analysis environment, ideal for economists, statisticians and data managers who are new to coding.

  • スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった

    Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。 そうではないみなさんには少々の説明が必要かと思いますので少々書きます。 ScraperWiki はスクレーパ(Web ページをスクレイピングするスクリプト)とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。 ScraperWiki を使うとスクレーパを作るのがラクになります: Web ベースのエディタでスクレーパを書き、その場で実行できる PHPPython または Ruby が使える(HTML パーサなどのモジュ

    スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった
  • DC-NDL解読講座 2012.4例会(情報組織化研究グループ)

    情報組織化研究グループ月例研究会報告(2012.4) 国立国会図書館ダブリンコアメタデータ記述(DC-NDL)解読講座 柴田洋子(国立国会図書館電子情報部) 日時: 2012年4月14日(土) 14:30~17:00 会場: 大阪市立弁天町市民学習センター 発表者 : 柴田洋子氏 (国立国会図書館電子情報部) テーマ : 国立国会図書館ダブリンコアメタデータ記述(DC-NDL)解読講座 共催: 目録法研究会(科学研究費基盤研究(C) 課題番号22500223 研究代表者:渡邊隆弘) 出席者: 池須安希(大阪音楽大学)、稲葉洋子、井村邦博(シーエムエス)、上田洋(ATR-Promotions)、上山卓也(京都大学付属図書館)、沖田克夫(桃山学院大学)、奥村亜紀(高槻市立図書館)、加藤信哉(名古屋大学附属図書館)、川崎秀子(佛教大学)、川瀬綾子、河手太士(静岡文化芸術大学図書館)、塩見橘子、篠

  • 紙と電子のハイブリッド出版を実現する 汎用書籍編集・制作サービス

    紙と電子のハイブリッド出版を実現する 汎用書籍編集・制作サービス 最終更新日: 2011/02/08 アンテナハウス株式会社 スライドPage 2011 2011年2月3日12:30-14:30 G3 「電子書籍の未来とEPUBフォーマットの活用」の講演資料 ☞ パワーポイント・スライド(PDFファイル) 次は講演のために用意したノートを少し改訂したものです(当日は、ノートを見ないでお話ししましたので、話の内容と若干のずれがあることをお断りします)。 日の話の趣旨 最初に、印刷用の書籍の作成と、電子書籍の制作のワークフローは質的に異なっているが、これを両立させる必要があることを述べる。 そしてそれを解決するにはどうしたら良いかを述べる。 解決策の一つとして、現在開発中の「クラウド型汎用書籍編集・制作システム(CAS-UB)」について、デモを交えて紹介する。 「を書こう・を作ろう」

  • 版元日誌 » 版元ドットコム・書誌情報API公開しました、あるいはふたつの書誌データ

    やります、やります、と言ってなかなか形にできなかった版元ドットコムの書誌データを外部から触れるようにする、「版元ドットコムAPI」の整備ですが、先日、ようやく第一歩をふみ出しました。(詳しくは「お知らせ » 版元ドットコムのAPI ( http://www.hanmoto.com/news/2010/02/19/hanmotocom-webapi/)」を御参照ください。) 「API」といっても、当面は書誌データに外部からアクセスしやすくする、というこの一点に目的がおかれているので、システム的には当初から実装されていたRSS配信などとさほど変わりません。RESTをサポート、と気取った(笑)言い方をして いますが、(X)HTMLの替わりに、XMLを返すようにしました、と言ってしまえばそれだけのことです。 時間がかかったのは、コーディング自体よりもむしろ、どういうフォーマットで書誌データをアウト

  • ちょっとしたメモ - SKOSの新草案

    旧SWBPのプロジェクトという位置づけで草案が公開されていたSKOSが、W3Cの標準化トラックに乗って、改めて最初の草案 SKOS Simple Knowledge Organization System Reference が公開された。シソーラスや分類表などの図書館系の知識体系を、できるだけそのままRDFで表現できるようにする語彙+モデルで、個人的なカテゴリや分類方法を体系化するのにも使える。さまざまな領域において、すでに多くのシソーラスや用語集が構築されているわけだが、これらは必ずしもOWLなどでそのままクラス体系として記述できるとは限らない。こうした知識や情報を、無理なく「セマンティック・ウェブ」に組み込むモデルとして、SKOSの果たす役割はかなり大きいのではないかと期待される。 SKOSでは、シソーラスや分類で扱う「術語」を、OWLのクラスではなく、概念リソース(Conceptu

  • W3C,分類体系用のモデル化言語「SKOS」を勧告化

    Web関連技術の標準化団体World Wide Web Consortium(W3C)は米国時間2009年8月18日,さまざまな分類体系を記述するための言語仕様「Simple Knowledge Organization System(SKOS)」をW3C勧告(Recommendation)として公開した。図書館で利用される書籍の分類ルールなどの知識体系をXMLで表現することが可能で,セマンティックWeb実現につながるとしている。 SKOSは,図書分類や類語集,商品目録,タクソノミ/フォークソノミといった知識データの分類体系を構造化モデルとして記述し,これらをWeb上のデータと結びつけることに使えるという。セマンティックWeb用マークアップ言語Resource Description Framework(RDF)と互換性がある。オントロジ記述言語「Ontology Web Language

    W3C,分類体系用のモデル化言語「SKOS」を勧告化
  • W3C、SKOSを勧告化

    World Wide Web Consortium(W3C)はこのほど、概念スキーマの基的構造を表現するモデルSKOS(Simple Knowledge Organisation System)をW3C勧告として公開しました。 SKOS Simple Knowledge Organization System Reference W3C Recommendation 18 August 2009 http://www.w3.org/TR/2009/REC-skos-reference-20090818/ W3C,分類体系用のモデル化言語「SKOS」を勧告化 – ITpro 2009/8/20付けの記事 http://itpro.nikkeibp.co.jp/article/NEWS/20090820/335755/

    W3C、SKOSを勧告化
  • http://labocho.blog21.fc2.com/blog-entry-190.html

  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

  • TRCデータ部ログ 日刊新刊全点案内 新刊一覧 - powered by FeedBurner

    TRCデータ部ログ 日刊新刊全点案内 新刊一覧 http://datablog.trc.co.jp/nikkan_annai.html 前営業日に作成した新刊書(学習参考書・コミックなどを除く)のTRC MARCの一覧です(通常月曜日から金曜日の更新)。発売日や書店に配されるタイミングとは異なる場合がありますのでご了承ください。 http://api.feedburner.jp/api/awareness/1.0/GetFeedData?uri=TRCNewArrival 弾道学 http://feeds.feedburner.jp/~r/TRCNewArrival/~3/4513862/08054502 ただもう、その生にしがみつき、唯一の頼りは、無いものねだりな空っぽの精神だけだ。暴力の輪郭、人間の輪郭、人間は自分か…。黒田光一による初の写真集。 弾道学 黒田 光一 /

    Guro
    Guro 2008/07/09
    弊社の日刊新刊全点案内をRSS化。
  • 新刊全点RSSフィード - 徒なる研究あるいはイアトロ化学者

    NHK「クローズアップ現代 ランキング依存が止まらない〜出版不況の裏側〜」が放送された後、海難記と150坪・書店員BLOGで触れられていた、新刊全点のRSSフィード。 大昔にTRCがメールで配信していたのだけど、なくなってしまった。 150坪の人も調べているけど、今はどこもやってないのだ。不思議。 じゃ、作るか。 http://feeds.feedburner.com/TRCNewArrival どこかしらから取得するには「今日の新刊」という情報が必要なのだが、奥付の出版年月日は書誌情報では年月までしか載っていないし先日付が常態なので当然使えない。判断方法は書店なり取次に「その日に初めて入荷したもの」ということになるのだが、「初入荷日」なんて情報はどこも公開していない。そこで使おうと思ったのが取次が書誌情報を持つときにプライマリーキーとして付与している番号だが、日販のNIPS管理コードもト

    Guro
    Guro 2008/07/09
    弊社の日刊新刊全点案内をRSS化。
  • ITmedia Biz.ID:Office 2007のファイルを何とか開く

    Office 2007のファイルを受け取ったが、自分のPCにはまだOffice 2007が入っていない。しかし、書かれている文言だけでいいから確認はしたい──。 11月30日に企業向けに正式リリースしたOffice 2007(11月7日の記事参照)。グラフが美しくなったとか、ユーザーインタフェースが刷新されたとか、特徴はいくつもあるが(11月15日の記事参照)、最も重要な変更はファイルフォーマットが変わったことだ。今後、自分がOffice 2007を導入していなくても、次第に周囲から送られてくるWordやExcelのファイルは“2007”になっていくだろう。 自分のPCで開けないファイルが送られてきたときに、どうやって中身を確認するか。Wordなら少なくとも文章の部分を、Excelならともあれ数字だけでも確認したいものだ。 Office 従来の拡張子 2007の拡張子 Word

    ITmedia Biz.ID:Office 2007のファイルを何とか開く
    Guro
    Guro 2008/06/23