[B! XML] funaki_naotoのブックマーク

法律のデータ構造と検索

デジタル庁は、法令標準 XML スキーマに準拠した、現行の法令データをe-Gov法令検索というサイト上で公開しています[1]。今回、この法令XMLをパースするPythonライブラリ ja-law-parser をつくり、法令データの全文検索をしてみました。この記事では、日本の法令とそのデータ構造、法令XMLパーサについて解説し、最後に、それらを使った法令データの全文検索システムを実装する方法をご紹介します。法令検索の実装についても、GitHubリポジトリで公開しています。この記事は、情報検索・検索技術 Advent Calendar 2023の16日目の記事です。法律と法令法律とは法律の制定と公布法律と法令の違い法律の改正法令のデータ構造 e-Govの法令データ法令標準XMLスキーマ法令番号と法令ID 題名本則と附則条・項・号編・章・節・款・目法令XMLパーサ：

funaki_naoto 2023/12/19

xml
search

リンク

XSL-FOでの日本語組版用チューニング

前置き『日本語組版処理の要件』[1]が現場で適用するレイアウトルールと誤解されがち、みたいな話があります[2]。本記事は、「日本語組版をするならこうしなければ」という話ではありません。飽く迄、「なんか言語化できないけれど、組版が好い感じにならないな」というときに、「こうしてみると好いんじゃない？」というフワっとした話です。基本テキスト設定（<fo:root>）先ず、主に利用するテキスト設定については<fo:root>で行うのが好いです。テキスト周りのプロパティは指定が無いとき継承されるものが殆どです。そしてFOのルート要素である<fo:root>に指定されていればちぐはぐな設定を減らせます。継承というのは、同名プロパティの直接的な話に限りません。例えば、@font-sizeを基に決定される相対的な値としてemがあります。<fo:region-after>の@extentにem単位で

funaki_naoto 2023/02/24

組版
xml

リンク

構文のことは忘れて、JSON, S式, XMLのデータモデルを比較する

データをシリアライズするには、独自のフォーマットを定めるよりも、基本的な定義済みの構造を組み合わせてフォーマットを作るほうが望ましい場合が多いです。そのような仕組みとしてJSON, S式, XMLなどが存在しますが、これらは「基本的な構造」として何を選ぶか、という観点からそれぞれに個性を持っています。本記事では、具体的な構文のことは基本的に忘れて、各フォーマットが採用するデータモデルの違いに焦点を絞って比較します。 JSON data JSON = Value data Value = -- Compounds Array [Value] | Object (Map String Value) -- Scalars | Null | Boolean Boolean | String String -- UCS-2 | Number IntegerOrFloat -- no NaNs

funaki_naoto 2022/11/07

xml

リンク

西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く - kzhr's diary

本記事は、言語学な人々の第7日目の記事として作成されました。どうすればカレンダー形式で埋め込まれるんでしょう？　教えてえらいひと。 adventar.org 国立国語研究所からこの11月30日に「西大寺本金光明最勝王経平安初期点」訓読文の「ひまわり」用XMLとテキストデータが公開されました。 www2.ninjal.ac.jp 今回は、そのXMLについて読み解いてみたいと思います。（当初は書きかけで公開していました。これで完全版です。）西大寺本金光明最勝王経平安初期点って？西大寺本『金光明最勝王経』は、「さいだいじぼん・こんこーみょーさいしょーおーきょー」と読みます。奈良の古刹・西大寺に伝来した、『金光明最勝王経』の写本のひとつという意味です。この西大寺本『金光明最勝王経』（長いので、以下単に西大寺本『最勝王経』、あるいは単に西大寺本と呼びます）は、漢文で書かれているこの西大寺本『

funaki_naoto 2021/12/08

リンク

メディア木龍––文章物こそXML組版

紙の本を作ると同時にXMLファイルも出来てしまう。あるいはXMLを読み込むだけであらかたレイアウトができてしまう。そういうワークフローはいかがですか？　メディア木龍はそういうワークフロー作りのお手伝いをしています。「文章物こそ」と書く理由――表の場合と文章の場合ご提案するワークフローメディア木龍ではXSLTでXMLを変換していますサンプル count="false">Tweet 「文章物こそ」と書く理由――表の場合と文章の場合 XML組版の用途として、大きく分けて表の場合と文章の場合とがあるかと思います。イメージしやすいのは表かと思いますが、まずは表の例をご紹介したうえで、XMLの特徴について書きたいと思います。次に示す画像は、「e-Gov法令検索XML一括ダウンロード最近の更新法令データ」から令和4年にダウンロードしたデータに入っていたCSVです。（クリックで拡大表示できま

funaki_naoto 2021/12/03

組版
xml

リンク

J-STAGEの書誌XMLを徹底解剖!? 基本構造編｜『人文×社会』の中の人

どうも、『人文×社会』の中の人です。今回は、J-STAGEに登載するための書誌XMLを徹底解剖してみたいと思います。とはいっても、すべての項目を一度にご紹介することはできないので、今回は論文タイトルや著者名など、必須項目に限定して見ていきたいと思います。書誌XMLの全体今回使用するのは、以下の架空の論文の書誌情報です。【タイトル】森林内での効率的な食糧調達【サブタイトル】たぬき協同組合との連携を通じて【著者名】森野熊三【所属】東京月輪大学森林環境学部【査読有無】査読なし【資料名（和文）】森の熊雑誌【資料名（英文）】Journal of Bears in Forests 【資料コード】bearsinforests 【巻数】25 【号数】2 【開始ページ】120 【終了ページ】134 【発行日】2021年7月30日 ※「資料名」は雑誌の名称、「資料コード」はJ-STAGE申

funaki_naoto 2021/08/02

journal
xml

リンク

新規開発されたJ-Stageの全文XML作成ツールにお付き合いした話（その2） - digitalnagasakiのブログ

さて、前々回の記事の続きです。前回記事から引用すると、総合的にみて現在おすすめのワークフローというわけで、J-Stageで全文XML登載をするにあたって、当方でおすすめの作業の流れは、大体以下のような感じです。ワードで、全文XML作成ツールに沿ったスタイルを設定する。全文XML作成ツールにワードを読み込ませてXMLファイルを作成し、それを「エクスポート」するエクスポートされたzipファイルを開いてXMLファイルをXML エディタ（Oyxgen XML Editor（有料）やVisual Studio Code + Scholarly XMLプラグイン（無料）等）に読み込ませてJATSスキーマを割り当てて編集作業をする。作業中は、全文XML作成ツールのXML編集画面を開いておき、適宜XMLエディタで作業中のソースを貼り付けてvalidationやHTMLプレビューを行う。一通り

funaki_naoto 2020/12/28

リンク

新規開発されたJ-Stageの全文XML作成ツールにお付き合いした話（その1） - digitalnagasakiのブログ

J-Stageに論文登載をする作業を時々しています。一部にはよく知られていますが、J-Stageは、学会等に無料でオープンアクセス論文の公開をさせてくれてDOIまでつけてくれるという信じられないくらいありがたいサービスです。普通はお金を取るものですが、J-Stageは手続きさえ通れば無料です。こんなにありがたいものを使わない手はない、ということで、すでに私が関係している学会の多くはJ-Stageで論文をオープンアクセスにしています。（注：J-Stageでは、有料アクセス論文、というか、アクセス制限をかけることもできるようです）。さて、J-Stageに掲載するのが無料と言っても、論文公開には編集作業が必要で、ややこしい文字や数式を印刷するのはなかなか大変なので、通常は専門企業に外注ですね。これは一般に、印刷会社が請け負ってくれることが多いようです。学術情報XML推進協議会とい

funaki_naoto 2020/12/28

リンク

XMLのつぶし方 - golden-luckyの日記

昨日までの話を整理します。ドキュメントのXMLによる表現は、プログラムの抽象構文木に相当し、ドキュメントの意味構造を示したものであったなので、XMLの構文をS式で表せたすると、XMLの要素名がLispにおける関数、要素がその関数への引数に見えたそこで、要素を材料としてシリアライズした文字列を返すように、要素名で関数を定義した。その際、要素の中には別の要素名を持つ要素が入れ子になっていることがあるので、それらは再帰的に処理するように定義した。こうして、ドキュメントのXMLをLispの評価器で直接実行できたそして、そのためのフレームワークとして、xml2texという自作のアプリケーションを紹介しました。 XMLからTeXを生成する専用機に見える名前が付いているけど、これは命名を失敗したと思っていて、xml2texは、いわば、XMLをつぶす機械を作る機械です。 XMLをつぶして好きな

funaki_naoto 2019/12/11

xml
TeX

リンク

辞書作りのシステム化は“辞書の定義”まで変えるかもしれない　『大辞林』編集長インタビュー

制作期間10余年、数十人規模の制作チーム、かつて膨大な手作業により指紋が消失する者もいた。―――　これは巨大な建造物ではなく、“辞書”という1冊の本の話です。2019年9月、大型国語辞書『大辞林』（三省堂）から、13年ぶりの全面改訂となる第4版が刊行。本記事は、映画「舟を編む」の制作にも関わった編集長・山本康一さんへのインタビュー企画・第3回となります。今回は前回、前々回にもチラッとでてきた「辞書作りのシステム化」を中心に伺いました。ユーザー側には見えにくい側面ですが、実は“辞書の定義”まで変えてしまう大きな転換点になっているようです。取材参加者山本康一さん：『大辞林』第4版編集長ながさわさん：数百冊の辞書を保有する辞書コレクター。暇さえあれば辞書を引いているねとらぼ編集部約20年前から進められていた“辞書のシステム化” ―――　前回、『大辞林』は第3版（2006年刊行）のころ

funaki_naoto 2019/11/25

リンク

こくちーずプロ - 無料で使えるイベント・セミナーの告知・集客サービス

個人から法人まで幅広い主催者の方にご活用いただいています。イベント主催者7万人以上チケット販売520万枚以上

funaki_naoto 2018/12/14

リンク

Wordさんは今日もおつかれです - Qiita

TL;DR Wordは箇条書きを作る度に膨大な情報がコピーされ、それは元の箇条書きを消しても残る(Windows/Mac共通) Wordは文章を編集するたびに、中身が断片化する。一度断片化したら元には戻らない(Mac版のみ) 断片化、参照されていない箇条書き情報については「名前をつけて保存」しても解消しないが、「全て選択してコピー、新規作成したファイルに貼り付け」で解消する。 2018年9月19日追記本稿にはもともと「Windowsで作成したWordファイルをMacで修正すると断片化する？」という仮説が追記として掲載されていましたが、実際には「作成環境に関係なく、Mac版Wordで編集すると断片化する」ことがわかりましたので、後で読む方の混乱を避けるためにその追記を削除しました。はじめに Wordファイルを扱っていて「だんだん重くなっていく」と感じたことはないだろうか。特に、代々引き継

funaki_naoto 2018/01/23

xml

リンク

サイトマップとは？役割、SEO効果と作成方法を解説 | ウィルゲート

サイトマップとは、サイト内にどういったページが存在しているかを一覧表示し、検索ユーザー・クローラーに対してサイト構造をわかりやすく伝えるためのページです。この記事では、サイトマップのSEO効果や、２つのサイトマップ「HTMLサイトマップ」「XMLサイトマップ」の違い、その役割と作成方法について説明します。サイトマップとは、サイト内にどういったページが存在しているかを一覧表示し、検索ユーザー・クローラーに対してサイト構造をわかりやすく伝えるためのページです。サイトマップには、HTMLサイトマップ（検索ユーザー向け）とXMLサイトマップ（検索エンジン向け）の2種類が存在します。「HTMLサイトマップ」「XMLサイトマップ」の役割の違いとはサイトマップは2種類あり、それぞれ以下のような役割の違いがあります。 HTMLサイトマップ：ユーザビリティ対応 XMLサイトマップ：クローラー対応（SE

funaki_naoto 2017/07/03

html
xml

リンク

写本や貴重書等の書誌情報の書き方について(TEI/XMLのご紹介) - digitalnagasakiのブログ

最近、メタデータの書き方について相談を受けることが多いので、今回は、写本や貴重書的な資料の書誌情報の書き方に関して、ちょっと事例を紹介させていただきます。テクスト資料のデジタル化に関しては、いわゆるISOのような規格ほどかっちりとしたものではないのですが、人文学資料向けに TEI (Text Encoding Initiative)というガイドラインが公開されています。これは、人文学資料向けというくらいですので、希望すれば非常に細やかな構造化が可能で（しかし浅い構造化もできて）、対応可能な分野も様々です。（たとえば、コーパス言語学では各単語の属性に着目しますが、古典文献学ではどちらかというと書誌情報や異文に着目する、という風な違いがあります。）このTEIガイドラインでの構造化は、現在はXMLで行うのが主流になっています。TEIガイドラインは、本来は特定のマークアップ言語に束縛されるもの

funaki_naoto 2017/05/26

リンク

自動組版のために原書のデータをLISPのマクロでハック

（前回から続く）そんな感じでオーム社でしばらく本を作っていました。そのうち、「プログラミングのための線形代数」という本を2004年に出しました。自分が数学科出身ということもあり、思い入れがある本です。この本には数式がたくさん出てきます。このため、著者は複雑な数式の表現が可能なLaTeXという形式で原稿を書いてきました。自分は数学科出身なので、LaTeXの簡単な編集やスタイルを当てることくらいはできました。そこで、印刷所に渡す直前までLaTeXを使って自分で組版してみました。印刷は、LaTeXを得意とする「三美印刷」という印刷会社に依頼しました。ちなみにラムダノートで最近出した「プロフェッショナルSSL/TLS」という書籍も印刷所は三美印刷です。 Rails 本の日本語版に自動組版を導入この本を作ったことで、LaTeXで書籍を作れることがわかりました。その後、2006年2月発行の「Ra

funaki_naoto 2017/05/18

リンク

気象庁XML電文を「正しく」画像化するために必要な地図の話

皆さんは「地図」気にしていますか？伊能忠敬が日本全国を歩いて測量してまわり、精巧な日本地図を作成してから約200年、今や誰もが手のひらの上で正確な日本地図・世界地図を自由な縮尺で見ることができる便利な時代です。それにしても、久しぶりの投稿ですが... 今回は、気象庁が提供しているXML電文を画像化する、その時に使う地図の話をしようと思います。以前、地震発生時の震源・震度情報をブラウザ上でグリグリ動かして閲覧可能なWebサービス「EVI 地震火山詳報」を作りました。 (参照: 地震とか火山噴火情報を閲覧できるWebサイトを作った) このとき使用した地図は、国土交通省が提供している国土数値情報行政区域というもので、行政区（雑に言うと市区町村）単位で日本を分割した地図です。地震が発生した後に気象庁から発表される「震度速報」「震源・震度に関する情報」では、日本の行政区単位で震度が発表され

funaki_naoto 2017/04/24

リンク

Scholarly HTMLからVivliostyleへ／XMLパブリッシング準研究会の活動紹介 page2017

funaki_naoto 2017/01/11

リンク

RFCの正規文書がXMLに:Geekなぺーじ

インターネットに関連するプロトコルなどを規定するRFC(Request For Comments)の正規文書のフォーマットが、これまでのplain-text ASCIIからXMLへと変わります。そのためのRFCが、RFC 7990 - RFC 7998として策定されました。 RFC 7990 RFC Format Framework RFC 7991 The "xml2rfc" Version 3 Vocabulary RFC 7992 HTML Format for RFCs RFC 7993 Cascading Style Sheets (CSS) Requirements for RFCs RFC 7994 Requirements for Plain-Text RFCs RFC 7995 PDF Format for RFCs RFC 7996 SVG Drawings for R

funaki_naoto 2016/12/21

xml
SVG

リンク

非専門家指向のデジタル・アーカイヴズに向けて

漢文のデジタル・アーカイヴズはこれまで漢文の出力形式に関して限られた選択肢しか持っていなかったため，非専門家を排除する形になっていた。本稿では，XML（eXtensible Markup Languge）の技術を漢文に適用し，XML技術に基づいたシステムを使用することにより，単一の漢文ソースから，5段階の読みやすさのレベルに対応した，5つの出力形式へと変換できることを示す。このシステムを用いることにより，様々な非専門家の利用者が容易に漢文を利用することができるデジタル・アーカイヴズを構築することが可能になる。

funaki_naoto 2016/09/21

漢文
xml

リンク

Re:VIEWで電子書籍とInDesign向けXMLを作るぞ - ただいま村

Wordで書かれた原稿をInDesignでDTPして、同時にリフロー型の電子書籍にもしたいという案件が来た。「Re:VIEW」というテキスト変換ツールがある。決められた記法で書かれたテキストファイルをEPUB形式の電子書籍やMarkdown、HTML、InDesign向けXML（IDGXML）などに変換してくれる。TeXをインストールすればPDFでの出力も可能。@kmutoさんなどが開発している。 Home · kmuto/review Wiki（https://github.com/kmuto/review/wiki）記法の解説：review/format.ja.md at master · kmuto/review（https://github.com/kmuto/review/blob/master/doc/format.ja.md）この種のテキスト変換ツールでは「Pandoc

funaki_naoto 2016/06/09

xml
ReVIEW

リンク

はてなブックマーク

タグ

関連タグで絞り込む (38)

XMLに関するfunaki_naotoのブックマーク (98)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス