タグ

XMLに関するfunaki_naotoのブックマーク (98)

  • 法律のデータ構造と検索

    デジタル庁は、法令標準 XML スキーマに準拠した、現行の法令データをe-Gov法令検索というサイト上で公開しています[1]。今回、この法令XMLをパースするPythonライブラリ ja-law-parser をつくり、法令データの全文検索をしてみました。 この記事では、日の法令とそのデータ構造、法令XMLパーサについて解説し、最後に、それらを使った法令データの全文検索システムを実装する方法をご紹介します。法令検索の実装についても、GitHubリポジトリで公開しています。 この記事は、情報検索・検索技術 Advent Calendar 2023の16日目の記事です。 法律と法令 法律とは 法律の制定と公布 法律と法令の違い 法律の改正 法令のデータ構造 e-Govの法令データ 法令標準XMLスキーマ 法令番号と法令ID 題名 則と附則 条・項・号 編・章・節・款・目 法令XMLパーサ:

    法律のデータ構造と検索
  • XSL-FOでの日本語組版用チューニング

    前置き 『日語組版処理の要件』[1]が現場で適用するレイアウトルールと誤解されがち、みたいな話があります[2]。記事は、「日語組版をするならこうしなければ」という話ではありません。飽く迄、「なんか言語化できないけれど、組版が好い感じにならないな」というときに、「こうしてみると好いんじゃない?」というフワっとした話です。 基テキスト設定(<fo:root>) 先ず、主に利用するテキスト設定については<fo:root>で行うのが好いです。 テキスト周りのプロパティは指定が無いとき継承されるものが殆どです。そしてFOのルート要素である<fo:root>に指定されていればちぐはぐな設定を減らせます。継承というのは、同名プロパティの直接的な話に限りません。例えば、@font-sizeを基に決定される相対的な値としてemがあります。<fo:region-after>の@extentにem単位で

    XSL-FOでの日本語組版用チューニング
  • 構文のことは忘れて、JSON, S式, XMLのデータモデルを比較する

    データをシリアライズするには、独自のフォーマットを定めるよりも、基的な定義済みの構造を組み合わせてフォーマットを作るほうが望ましい場合が多いです。 そのような仕組みとしてJSON, S式, XMLなどが存在しますが、これらは 「基的な構造」として何を選ぶか、という観点からそれぞれに個性を持っています。 記事では、具体的な構文のことは基的に忘れて、各フォーマットが採用するデータモデルの違いに焦点を絞って比較します。 JSON data JSON = Value data Value = -- Compounds Array [Value] | Object (Map String Value) -- Scalars | Null | Boolean Boolean | String String -- UCS-2 | Number IntegerOrFloat -- no NaNs

    構文のことは忘れて、JSON, S式, XMLのデータモデルを比較する
  • 西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く - kzhr's diary

    記事は、言語学な人々の第7日目の記事として作成されました。どうすればカレンダー形式で埋め込まれるんでしょう? 教えてえらいひと。 adventar.org 国立国語研究所からこの11月30日に「西大寺金光明最勝王経平安初期点」訓読文の「ひまわり」用XMLとテキストデータが公開されました。 www2.ninjal.ac.jp 今回は、そのXMLについて読み解いてみたいと思います。 (当初は書きかけで公開していました。これで完全版です。) 西大寺金光明最勝王経平安初期点って? 西大寺『金光明最勝王経』は、「さいだいじぼん・こんこーみょーさいしょーおーきょー」と読みます。奈良の古刹・西大寺に伝来した、『金光明最勝王経』の写のひとつという意味です。 この西大寺『金光明最勝王経』(長いので、以下単に西大寺『最勝王経』、あるいは単に西大寺と呼びます)は、漢文で書かれているこの西大寺

    西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く - kzhr's diary
  • メディア木龍––文章物こそXML組版

    紙のを作ると同時にXMLファイルも出来てしまう。あるいはXMLを読み込むだけであらかたレイアウトができてしまう。そういうワークフローはいかがですか? メディア木龍はそういうワークフロー作りのお手伝いをしています。 「文章物こそ」と書く理由――表の場合と文章の場合 ご提案するワークフロー メディア木龍ではXSLTでXMLを変換しています サンプル count="false">Tweet 「文章物こそ」と書く理由――表の場合と文章の場合 XML組版の用途として、大きく分けて表の場合と文章の場合とがあるかと思います。イメージしやすいのは表かと思いますが、まずは表の例をご紹介したうえで、XMLの特徴について書きたいと思います。 次に示す画像は、「e-Gov法令検索XML一括ダウンロード 最近の更新法令データ」から令和4年にダウンロードしたデータに入っていたCSVです。 (クリックで拡大表示できま

    メディア木龍––文章物こそXML組版
  • J-STAGEの書誌XMLを徹底解剖!? 基本構造編|『人文×社会』の中の人

    どうも、『人文×社会』の中の人です。 今回は、J-STAGEに登載するための書誌XMLを徹底解剖してみたいと思います。 とはいっても、すべての項目を一度にご紹介することはできないので、今回は論文タイトルや著者名など、必須項目に限定して見ていきたいと思います。 書誌XMLの全体今回使用するのは、以下の架空の論文の書誌情報です。 【タイトル】森林内での効率的な糧調達 【サブタイトル】たぬき協同組合との連携を通じて 【著者名】森野熊三 【所属】東京月輪大学森林環境学部 【査読有無】査読なし 【資料名(和文)】森の熊雑誌 【資料名(英文)】Journal of Bears in Forests 【資料コード】bearsinforests 【巻数】25 【号数】2 【開始ページ】120 【終了ページ】134 【発行日】2021年7月30日 ※「資料名」は雑誌の名称、「資料コード」はJ-STAGE申

    J-STAGEの書誌XMLを徹底解剖!? 基本構造編|『人文×社会』の中の人
  • 新規開発されたJ-Stageの全文XML作成ツールにお付き合いした話(その2) - digitalnagasakiのブログ

    さて、前々回の記事の続きです。前回記事から引用すると、 総合的にみて現在おすすめのワークフロー というわけで、J-Stageで全文XML登載をするにあたって、当方でおすすめの作業の流れは、大体以下のような感じです。 ワードで、全文XML作成ツールに沿ったスタイルを設定する。 全文XML作成ツールにワードを読み込ませてXMLファイルを作成し、それを「エクスポート」する エクスポートされたzipファイルを開いてXMLファイルをXML エディタ(Oyxgen XML Editor(有料)やVisual Studio Code + Scholarly XMLプラグイン(無料)等)に読み込ませてJATSスキーマを割り当てて編集作業をする。 作業中は、全文XML作成ツールのXML編集画面を開いておき、適宜XMLエディタで作業中のソースを貼り付けてvalidationやHTMLプレビューを行う。 一通り

    新規開発されたJ-Stageの全文XML作成ツールにお付き合いした話(その2) - digitalnagasakiのブログ
  • 新規開発されたJ-Stageの全文XML作成ツールにお付き合いした話(その1) - digitalnagasakiのブログ

    J-Stageに論文登載をする作業を時々しています。一部にはよく知られていますが、J-Stageは、 学会等に無料でオープンアクセス論文の公開をさせてくれてDOIまでつけてくれるという信じられないくらいありがたいサービスです。 普通はお金を取るものですが、J-Stageは手続きさえ通れば無料です。こんなにありがたいものを 使わない手はない、ということで、すでに私が関係している学会の多くはJ-Stageで 論文をオープンアクセスにしています。(注:J-Stageでは、有料アクセス論文、というか、アクセス制限を かけることもできるようです)。 さて、J-Stageに掲載するのが無料と言っても、論文公開には編集作業が必要で、ややこしい文字や数式を 印刷するのはなかなか大変なので、通常は専門企業に外注ですね。これは一般に、印刷会社が請け負ってくれる ことが多いようです。学術情報XML推進協議会とい

    新規開発されたJ-Stageの全文XML作成ツールにお付き合いした話(その1) - digitalnagasakiのブログ
  • XMLのつぶし方 - golden-luckyの日記

    昨日までの話を整理します。 ドキュメントのXMLによる表現は、プログラムの抽象構文木に相当し、ドキュメントの意味構造を示したものであった なので、XMLの構文をS式で表せた すると、XMLの要素名がLispにおける関数、要素がその関数への引数に見えた そこで、要素を材料としてシリアライズした文字列を返すように、要素名で関数を定義した。その際、要素の中には別の要素名を持つ要素が入れ子になっていることがあるので、それらは再帰的に処理するように定義した。 こうして、ドキュメントのXMLをLispの評価器で直接実行できた そして、そのためのフレームワークとして、xml2texという自作のアプリケーションを紹介しました。 XMLからTeXを生成する専用機に見える名前が付いているけど、これは命名を失敗したと思っていて、xml2texは、いわば、XMLをつぶす機械を作る機械です。 XMLをつぶして好きな

    XMLのつぶし方 - golden-luckyの日記
  • 辞書作りのシステム化は“辞書の定義”まで変えるかもしれない 『大辞林』編集長インタビュー

    制作期間10余年、数十人規模の制作チーム、かつて膨大な手作業により指紋が消失する者もいた。――― これは巨大な建造物ではなく、“辞書”という1冊のの話です。2019年9月、大型国語辞書『大辞林』(三省堂)から、13年ぶりの全面改訂となる第4版が刊行。記事は、映画「舟を編む」の制作にも関わった編集長・山康一さんへのインタビュー企画・第3回となります。 今回は前回、前々回にもチラッとでてきた「辞書作りのシステム化」を中心に伺いました。ユーザー側には見えにくい側面ですが、実は“辞書の定義”まで変えてしまう大きな転換点になっているようです。 取材参加者 山康一さん:『大辞林』第4版編集長 ながさわさん:数百冊の辞書を保有する辞書コレクター。暇さえあれば辞書を引いている ねとらぼ編集部 約20年前から進められていた“辞書のシステム化” ――― 前回、『大辞林』は第3版(2006年刊行)のころ

    辞書作りのシステム化は“辞書の定義”まで変えるかもしれない 『大辞林』編集長インタビュー
  • こくちーずプロ - 無料で使えるイベント・セミナーの告知・集客サービス

    個人から法人まで幅広い主催者の方にご活用いただいています。 イベント主催者7万人以上 チケット販売520万枚以上

    こくちーずプロ - 無料で使えるイベント・セミナーの告知・集客サービス
  • Wordさんは今日もおつかれです - Qiita

    TL;DR Wordは箇条書きを作る度に膨大な情報がコピーされ、それは元の箇条書きを消しても残る(Windows/Mac共通) Wordは文章を編集するたびに、中身が断片化する。一度断片化したら元には戻らない(Mac版のみ) 断片化、参照されていない箇条書き情報については「名前をつけて保存」しても解消しないが、「全て選択してコピー、新規作成したファイルに貼り付け」で解消する。 2018年9月19日追記 稿にはもともと「Windowsで作成したWordファイルをMacで修正すると断片化する?」という仮説が追記として掲載されていましたが、実際には「作成環境に関係なく、Mac版Wordで編集すると断片化する」ことがわかりましたので、後で読む方の混乱を避けるためにその追記を削除しました。 はじめに Wordファイルを扱っていて「だんだん重くなっていく」と感じたことはないだろうか。特に、代々引き継

    Wordさんは今日もおつかれです - Qiita
  • サイトマップとは?役割、SEO効果と作成方法を解説 | ウィルゲート

    サイトマップとは、サイト内にどういったページが存在しているかを一覧表示し、検索ユーザー・クローラーに対してサイト構造をわかりやすく伝えるためのページです。この記事では、サイトマップのSEO効果や、2つのサイトマップ「HTMLサイトマップ」「XMLサイトマップ」の違い、その役割と作成方法について説明します。 サイトマップとは、サイト内にどういったページが存在しているかを一覧表示し、検索ユーザー・クローラーに対してサイト構造をわかりやすく伝えるためのページです。サイトマップには、HTMLサイトマップ(検索ユーザー向け)とXMLサイトマップ(検索エンジン向け)の2種類が存在します。 「HTMLサイトマップ」「XMLサイトマップ」の役割の違いとは サイトマップは2種類あり、それぞれ以下のような役割の違いがあります。 HTMLサイトマップ:ユーザビリティ対応 XMLサイトマップ:クローラー対応(SE

    サイトマップとは?役割、SEO効果と作成方法を解説 | ウィルゲート
  • 写本や貴重書等の書誌情報の書き方について(TEI/XMLのご紹介) - digitalnagasakiのブログ

    最近、メタデータの書き方について相談を受けることが多いので、今回は、写や貴重書的な資料の書誌情報の書き方に関して、ちょっと事例を紹介させていただきます。 テクスト資料のデジタル化に関しては、いわゆるISOのような規格ほどかっちりとしたものではないのですが、人文学資料向けに TEI (Text Encoding Initiative)というガイドラインが公開されています。これは、人文学資料向けというくらいですので、希望すれば非常に細やかな構造化が可能で(しかし浅い構造化もできて)、対応可能な分野も様々です。(たとえば、コーパス言語学では各単語の属性に着目しますが、古典文献学ではどちらかというと書誌情報や異文に着目する、という風な違いがあります。) このTEIガイドラインでの構造化は、現在はXMLで行うのが主流になっています。TEIガイドラインは、来は特定のマークアップ言語に束縛されるもの

    写本や貴重書等の書誌情報の書き方について(TEI/XMLのご紹介) - digitalnagasakiのブログ
  • 自動組版のために原書のデータをLISPのマクロでハック

    (前回から続く) そんな感じでオーム社でしばらくを作っていました。そのうち、「プログラミングのための線形代数」というを2004年に出しました。自分が数学科出身ということもあり、思い入れがあるです。 このには数式がたくさん出てきます。このため、著者は複雑な数式の表現が可能なLaTeXという形式で原稿を書いてきました。自分は数学科出身なので、LaTeXの簡単な編集やスタイルを当てることくらいはできました。そこで、印刷所に渡す直前までLaTeXを使って自分で組版してみました。 印刷は、LaTeXを得意とする「三美印刷」という印刷会社に依頼しました。ちなみにラムダノートで最近出した「プロフェッショナルSSL/TLS」という書籍も印刷所は三美印刷です。 Railsの日語版に自動組版を導入 このを作ったことで、LaTeXで書籍を作れることがわかりました。その後、2006年2月発行の「Ra

    自動組版のために原書のデータをLISPのマクロでハック
  • 気象庁XML電文を「正しく」画像化するために必要な地図の話

    皆さんは「地図」気にしていますか? 伊能忠敬が日全国を歩いて測量してまわり、精巧な日地図を作成してから約200年、今や誰もが手のひらの上で正確な日地図・世界地図を自由な縮尺で見ることができる便利な時代です。 それにしても、久しぶりの投稿ですが... 今回は、気象庁が提供しているXML電文を画像化する、その時に使う地図の話をしようと思います。 以前、地震発生時の震源・震度情報をブラウザ上でグリグリ動かして閲覧可能なWebサービス「EVI 地震火山詳報」を作りました。 (参照: 地震とか火山噴火情報を閲覧できるWebサイトを作った) このとき使用した地図は、国土交通省が提供している国土数値情報 行政区域というもので、行政区(雑に言うと市区町村)単位で日を分割した地図です。 地震が発生した後に気象庁から発表される「震度速報」「震源・震度に関する情報」では、日の行政区単位で震度が発表され

    気象庁XML電文を「正しく」画像化するために必要な地図の話
  • Scholarly HTMLからVivliostyleへ/XMLパブリッシング準研究会の活動紹介 page2017

  • RFCの正規文書がXMLに:Geekなぺーじ

    インターネットに関連するプロトコルなどを規定するRFC(Request For Comments)の正規文書のフォーマットが、これまでのplain-text ASCIIからXMLへと変わります。そのためのRFCが、RFC 7990 - RFC 7998として策定されました。 RFC 7990 RFC Format Framework RFC 7991 The "xml2rfc" Version 3 Vocabulary RFC 7992 HTML Format for RFCs RFC 7993 Cascading Style Sheets (CSS) Requirements for RFCs RFC 7994 Requirements for Plain-Text RFCs RFC 7995 PDF Format for RFCs RFC 7996 SVG Drawings for R

  • 非専門家指向のデジタル・アーカイヴズに向けて

    漢文のデジタル・アーカイヴズはこれまで漢文の出力形式に関して限られた選択肢しか持っていなかったため,非専門家を排除する形になっていた。稿では,XML(eXtensible Markup Languge)の技術を漢文に適用し,XML技術に基づいたシステムを使用することにより,単一の漢文ソースから,5段階の読みやすさのレベルに対応した,5つの出力形式へと変換できることを示す。このシステムを用いることにより,様々な非専門家の利用者が容易に漢文を利用することができるデジタル・アーカイヴズを構築することが可能になる。

  • Re:VIEWで電子書籍とInDesign向けXMLを作るぞ - ただいま村

    Wordで書かれた原稿をInDesignでDTPして、同時にリフロー型の電子書籍にもしたいという案件が来た。 「Re:VIEW」というテキスト変換ツールがある。決められた記法で書かれたテキストファイルをEPUB形式の電子書籍MarkdownHTML、InDesign向けXML(IDGXML)などに変換してくれる。TeXをインストールすればPDFでの出力も可能。@kmutoさんなどが開発している。 Home · kmuto/review Wiki(https://github.com/kmuto/review/wiki) 記法の解説:review/format.ja.md at master · kmuto/review(https://github.com/kmuto/review/blob/master/doc/format.ja.md) この種のテキスト変換ツールでは「Pandoc

    Re:VIEWで電子書籍とInDesign向けXMLを作るぞ - ただいま村