タグ

文字コードに関するkinohikoのブックマーク (21)

  • 文字情報基盤の API を使って JIS 第n水準を取得してみる - Qiita

    この記事で紹介していた IPA 文字情報基盤は 2020年8月より 一般社団法人文字情報技術促進協議会 に信託譲渡されました。https://mojikiban.ipa.go.jp/ 自体が失効しているため、記事の方法は機能しません。過去の記録として閲覧してください。 入力チェックで 「JIS第n水準の字以外はNG」 といった要件が稀によくあります。そんなとき、先人の正規表現や文字リストを流用することはありがちですが信憑性は課題です。ここでは IPA の 文字情報基盤 を使って JIS 第n水準の文字集合を取得する方法を紹介します。 1. API 文字情報基盤では SPARQL Endpoint を提供しており、以下のような Web フォームに SPARQL を入力実行することで情報の取得が可能です。 https://mojikiban.ipa.go.jp/1bf7a30fda/spar

    文字情報基盤の API を使って JIS 第n水準を取得してみる - Qiita
  • [PDF]次世代目録所在情報サービスの在り方について(最終報告)(平成21年3月)

    目録所在情報サービス(NACSIS-CAT/ILL)について 目録所在情報サービスは、参加する図書館が所蔵する資料の書誌情報と所在情報をオンラインでデータベース化し、所在情報データベースを利用して、それぞれの図書館が自館で所蔵していない資料を相互に提供する「図書館間相互協力」を迅速に実施しています。 NACSIS-CATとは、オンライン共同分担目録方式により全国規模の総合目録データベース(図書/雑誌)を形成するためのシステムです。 NACSIS-ILLとは、図書館間で行われている相互貸借サービス(文献複写や資料現物の貸借の依頼及び受付)のメッセージのやりとりを電子化したシステムです。

    kinohiko
    kinohiko 2018/09/11
    “11.2 外字の扱い”
  • 情報学広場:情報処理学会電子図書館

    ※ユーザ登録は無料です. 電子図書館のご利用にあたっては「情報処理学会電子図書館利用規約」をご遵守下さい。 情報学広場に掲載されているコンテンツには有料のものも含まれています。 有料コンテンツをご購入いただいた場合はクレジットカード決済のみとなります。 複写および転載をされる方へ一般社団法人情報処理学会では複写複製および転載複製に係る著作権を学術著作権協会に委託しています。当該利用をご希望の方は、学術著作権協会が提供している複製利用許諾システムもしくは転載許諾システムを通じて申請ください。 尚、会会員(賛助会員含む)および著者が転載利用の申請をされる場合については、学術目的利用に限り、無償で転載利用いただくことが可能です。ただし、利用の際には予め申請いただくようお願い致します。

    kinohiko
    kinohiko 2018/09/11
    “UCS符号化提案におけるデジタルツールの活用-大正新脩大藏經外字の符号化提案にあたって”
  • 目録システム(NACSIS-CAT)の多言語対応 | 米澤 誠[PDF]

    目録所在情報サービス(NACSIS-CAT/ILL)について 目録所在情報サービスは、参加する図書館が所蔵する資料の書誌情報と所在情報をオンラインでデータベース化し、所在情報データベースを利用して、それぞれの図書館が自館で所蔵していない資料を相互に提供する「図書館間相互協力」を迅速に実施しています。 NACSIS-CATとは、オンライン共同分担目録方式により全国規模の総合目録データベース(図書/雑誌)を形成するためのシステムです。 NACSIS-ILLとは、図書館間で行われている相互貸借サービス(文献複写や資料現物の貸借の依頼及び受付)のメッセージのやりとりを電子化したシステムです。

    kinohiko
    kinohiko 2018/09/11
    2000年にUCS対応した際の詳細
  • [PDF]次世代目録所在情報サービスの在り方について(最終報告)(平成21年3月)

    目録所在情報サービス(NACSIS-CAT/ILL)について 目録所在情報サービスは、参加する図書館が所蔵する資料の書誌情報と所在情報をオンラインでデータベース化し、所在情報データベースを利用して、それぞれの図書館が自館で所蔵していない資料を相互に提供する「図書館間相互協力」を迅速に実施しています。 NACSIS-CATとは、オンライン共同分担目録方式により全国規模の総合目録データベース(図書/雑誌)を形成するためのシステムです。 NACSIS-ILLとは、図書館間で行われている相互貸借サービス(文献複写や資料現物の貸借の依頼及び受付)のメッセージのやりとりを電子化したシステムです。

    kinohiko
    kinohiko 2018/09/11
    "NACSIS-CAT 目録システムの多言語対応"
  • http://www.jads.org/news/2008/1206/2_toyama.pdf

    kinohiko
    kinohiko 2018/09/10
    "文字を残すための序論的考察 The Character as the Cultural-Heritage 當山 日出夫"
  • Japan Art Documentaion Society

    >>予稿集一括DL(個別DLは下記プログラムから) 発表者からWeb公開の許諾を得た原稿を掲載しています ■第1回 秋季研究発表会 プログラム 2008年度アート・ドキュメンテーション学会の新規事業,研究成果公開活性化プロジェクトとして標記研究発表会を開催いたします。奮ってご参加下さい。 ■ 開催日時と会場ならびに参加費 日時: 2008年12月6日(土) 10:30-17:00 会場: 印刷博物館 B1F グーテンベルクルーム(研修室) http://www.printing-museum.org/index.html 〒112-8531 東京都文京区水道1丁目3番3号 トッパン小石川ビル 江戸川橋駅 地下鉄有楽町線(4番出口)より8分 飯田橋駅 JR総武線(東口)、 地下鉄有楽町線、地下鉄東西線、地下鉄南北線(B1出口)、 地下鉄大江戸線より13分 後楽園駅 地下鉄丸ノ内線、地下鉄南北

    kinohiko
    kinohiko 2018/09/10
    第1回 秋季研究発表会“「文字を残すための序論的考察」”
  • 外字注記辞書編纂プロジェクトの紹介

    2007年5月18日 作成開始 2007年7月7日 公開 2007年11月7日 修正 2011年7月25日 最終修正 青空文庫外字注記辞書編集グループ 青空文庫で私たちがやろうとしていることは、テキストの〈交換〉だ。一台の孤立したマシンの画面上に、何万字もの漢字が表示できたり、プリントアウトできたとしても、そのファイルを不特定多数の人の手許で正しく表示できないのなら、少なくとも私たちが目指す〈交換〉の観点からすれば意味がない。 青空文庫は、依拠する漢字コードの包摂規準は、〈交換〉を一義とする以上、受け入れるしかないという前提に立っている。 包摂されるのか別字として取り扱われるのかを素早く判断することは不可能だ。 青空文庫と外字からの抜粋 外字注記辞書編纂プロジェクトの夜明け 上記でも述べられているように入力や校正作業で困ることの一つに、入力された文字と底の文字の違いをどう判断するかという

    kinohiko
    kinohiko 2018/09/09
    青空文庫のテキスト作成時の外字注記のための辞書。(青空文庫はJIS第1・第2水準の範囲で漢字を表示するが、それ以外の字は注記をしている)
  • 青空文庫の応援ページ

    このWebページについて 「青空文庫の応援ページ」では、結城浩が青空文庫の作業者(工作員)向けのツールを約20年間に渡って公開していました。 公開していたツールは以下の通りです。 相違点チェッカー 文字コード取得ツール 旧字体置換可能チェッカー「校閲君」 文字チェッカー 誤認文字リスト 現在は青空文庫にツールを移管しています。 これまでの履歴 2021年4月12日、ツールの公開を停止し、青空文庫に移管しました。 2002年4月16日、「文字チェッカー」をバージョンアップしました。 2001年12月16日、「文字チェッカー」をバージョンアップしました。 2001年12月15日、「校閲君」に長さチェック機能を入れました。 2001年2月25日、「相違点チェッカー」を公開しました。 2001年2月11日、「文字コード取得ツール」のスクリプトをバージョンアップしました。 2001年2月5日、「文字

  • 青空文庫から.txtファイルの未来へ:パブリックドメインと電子テキストの20年

    民間のボランティアによって運営されているインターネット上のテキストアーカイブたる青空文庫注1)は,1997年7月7日の開設から早くも20年近くがたとうとしているが,今ではおよそ1万4,000点の電子テキストを収める国内有数のWebサイトにまで発展している(図1)。 稿では,その青空文庫が取り扱っている電子テキストに焦点を当て,フォーマットやツールあるいはビューアーなどの実作業にまつわる点から,JIS漢字コードをめぐる諸問題やファイルの変換や活用に至るまでを,青空文庫に長く携わってきた立場から解説してみたい。 現在,青空文庫で作業する際のよりどころとしているのは,テキストファイル(拡張子.txt),いわゆるプレーンテキストである。どのボランティアもまずはこのファイル形式で書籍を電子化し,そのあとでXHTMLファイルを自動作成して,両ファイルを公開するという手順が踏まれ,Web上で簡易閲覧す

  • NDL書誌情報ニュースレター37号

    2016 年 2 号(通号 37 号) NDL 書誌情報ニュースレター 目 次 ウェブ環境に適した新しい書誌フレームワーク:BIBFRAME (収集・書誌調整課 柴田洋子) 1 欧米国立図書館の RDA 適用状況に関する調査報告 (国内資料課 吉家あかね) 7 世界の RDA の取組みのいま(8)―中国 (関西館 アジア情報課 齊藤まや) 13 世界の RDA の取組みのいま(9)―スペイン語圏(イベロアメリカ諸国を中心に) (国内資料課 鎌倉知美) 17 文字コード講座 第 3 回(完)―文字コードあれこれ (関西館 上綱秀治) 23 おしらせ:全国書誌データ・レファレンス協同データベース利活用研修会を開催します (収集・書誌調整課) 29 おしらせ:平成 28 年度遠隔利用者アンケートにご協力ください (収集・書誌調整課) 31 おしらせ:雑誌記事索引データに記録する著者等の数を増やし

    kinohiko
    kinohiko 2018/09/01
    "多種多様な文字コードを扱える環境を整えることは長年の課題でしたが、2012年1月にUnicodeを扱える新システムを導入することにより実現しました"
  • NDL書誌情報ニュースレター36号

    2016 年 1 号(通号 36 号) NDL 書誌情報ニュースレター 目 次 第 40 回 ISSN センター長会議参加報告―ISSN ネットワーク設立 40 周年に際して (逐次刊行物・特別資料課 胡龍子) 1 第 18 回日韓業務交流報告 「書誌データの作成・提供に関する最新動向:オンライン資料の整理を中心に」 (収集・書誌調整課 柴田洋子) 6 世界の RDA の取組みのいま(6)―トルコ (調査及び立法考査局 議会官庁資料課 林瞬介) 16 世界の RDA の取組みのいま(7)―メキシコ (外国資料課 菅野真由美) 22 コラム:一生ケンメイ!(1)主題細目「復興」「被災者支援」 (国内資料課 境野由美子) 27 文字コード講座 第 2 回―Unicode 入門 (電子情報部 電子情報企画課 上綱秀治) 31 おしらせ:平成 27 年度書誌調整連絡会議を開催しました (収集・書誌

  • NDL書誌情報ニュースレター35号

    2015 年 4 号(通号 35 号) NDL 書誌情報ニュースレター 目 次 世界図書館・情報会議(第 81 回 IFLA 大会)、VIAF 評議会会議報告 (収集・書誌調整課 津田深雪) 1 世界の RDA の取組みのいま(3)―カナダ (外国資料課 河村悦子) 7 世界の RDA の取組みのいま(4)―RDA のフランス語翻訳 (外国資料課 十文字香奈子) 12 世界の RDA の取組みのいま(5)―フィリピン (外国資料課 上田友明) 18 文字コード講座 第 1 回―文字コードの歴史(Unicode 前史) (電子情報部 電子情報企画課 上綱秀治) 23 NACSIS-CAT と JAPAN/MARC(A)の典拠データ同定のための予備調査について (電子情報部 電子情報サービス課 安藤大輝) 31 第 17 回図書館総合展:全国書誌利活用促進の取組み―「これまで」の総括と「これか

  • お知らせ:国立公文書館

    公文書館等におけるデジタルアーカイブ・システムの標準仕様書を改訂しました 独立行政法人国立公文書館(以下「当館」という。)では、平成20年度に全国の公文書館等に向けて「デジタルアーカイブ・システム標準仕様書」を作成し、当館ホームページ上で提供する等普及に努めてまいりました。同書は平成24年度に一部改訂を行いましたが、その後もデジタルアーカイブに関する技術状況の進展は著しく、全体的な見直しによる改訂の必要が生じていました。 このため当館では、平成28年度に「最新のIT技術を活用したデジタルアーカイブ・システムの調査検討」を実施し、デジタルアーカイブに関連する最新のIT技術等の調査検討を行うとともに、改訂に向けた考え方の整理を行いました。そして平成29年度に、同調査検討の成果を踏まえた改訂作業を実施し、当館ホームページ上に改訂版の「公文書館等におけるデジタルアーカイブ・システムの標準仕様書」を

    kinohiko
    kinohiko 2018/08/31
    “公文書館等におけるデジタルアーカイブ・システムの標準仕様書を改訂しました”
  • 文字・読みの基準|国立国会図書館―National Diet Library

    読みに関する基準は、タイトル、著者等のアクセス・ポイントのカナおよびローマ字による表記の方法、読みの中での記号や数字の扱い方、複数の読みがある語の読み方、分かち書きの方法等に一定のルールを設け、書誌データおよび典拠データがまとまりをもつようにするものです。 読みの基準(2021年1月)(PDF: 897KB) * 2020年12月以前の基準類については、「過去の読みの基準類」をご参照ください。

  • 文字コードの部屋 -- 機種依存文字の歴史

    大きな憂です。なんでもかんでもベンダーの責任にしてしまいがちですが、WindowsMac OS を眺めただけでは、よくわかりません。その前身である MS-DOS と 漢字 Talk までさかのぼることで、ようやく問題の質が見えてきます。 目次 機種依存文字とは何か? IBM とその互換機にまつわる歴史 … IBM 拡張文字 NEC とその互換機にまつわる歴史NEC 特殊文字、NEC 選定 IBM 拡張文字 Microsoft にまつわる歴史 Apple にまつわる歴史Apple 標準システム外字 まとめ 1. 機種依存文字とは何か? 来用意されていない、メーカやユーザが独自に作成した拡張文字を「外字」といい、古くからワープロなどで利用されてきました。近年、パソコン通信・インターネットなどのネットワークが普及することによって、OS を越えた文章のやりとりができるように

  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • 文字コードを整理する

  • Unicode―文字コード入門―

    Unicodeとは 多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。 そこでこの問題を解消すべく、IBM、MicrosoftApple等が加盟(他のメンバーについてはこちらを参照)するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット(65536文字)に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構(ISO)が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される

  • UnicodeとかUTF-8とかShift_JISとか色々複雑なので自メモ - 残像ブログ

    下記の書籍を参考にしてます この記事内の記述には私の理解不足により誤りがある可能性があるので、こちらのを読むのがとてもおすすめ プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ) 作者: 矢野啓介出版社/メーカー: 技術評論社発売日: 2010/02/18メディア: 単行(ソフトカバー)購入: 33人 クリック: 564回この商品を含むブログ (123件) を見る そもそも文字コードとは 任意の文字を重複無く集めたものを文字集合という その文字集合とビット組み合わせを対応付けたものを文字コードまたは符号化文字集合という 文字コードは収録している文字の種類・数、ビット組み合わせの桁数などの違いがある ASCII、JIS X 0208、Unicodeなどが文字コードにあたり、それぞれの特徴は以下の通り 文字コード名

    UnicodeとかUTF-8とかShift_JISとか色々複雑なので自メモ - 残像ブログ