タグ

文字コードと安岡孝一氏に関するworks014のブックマーク (21)

  • 人名用漢字と第1・第2水準漢字に対する妄想 | yasuokaの日記 | スラド

    『新しい常用漢字と人名用漢字』の読者から、榎並利博の「電子行政における使用漢字の問題」(情報管理, Vol.57, No.5 (2014年8月), pp.298-306)を読んでほしい、との御連絡をいただいた。正直いって、去年10月の「電子行政における文字コードと外字について」(行政&情報システム, Vol.49, No.5, pp.60-66)から、またさらに病状が悪化していて、もはや手が付けられない。私(安岡孝一)の日記で指摘した点(これとかこれ)が治ってないばかりか、新たな妄想まで湧いている始末だ。特に以下の文章。 JISは経済産業省,住基ネット統一文字は総務省,戸籍統一文字は法務省と縦割りになっており,さらに常用漢字・人名用漢字・表外漢字は文部科学省の管轄である。つまり,国の統一基準がなく,そして今後も統一化される見込みがない。デファクトスタンダードとしてJIS第1水準・第2水準が

  • 文字情報一覧表の「入管正字コード」と「入管外字コード」 | yasuokaの日記 | スラド

    文字情報基盤の文字情報一覧表Ver.003.01をざっとチェックしてみたのだが、やはり「入管外字コード」に妙なものが紛れ込んでいる。今回は「入管正字コード」の項目を追加して、「入管外字コード」との分離を図ったはずなのに、どうもそれが徹底されていないようだ。とりあえず、「入管外字コード」で目についたミスを、以下に挙げておくことにする。 MJ011574 6085→F469 MJ012975 654E→EFAC MJ027430 9592→F249 MJ028902 9AD9→F409 ただ、在留カード等に係る漢字氏名の表記等に関する告示(平成23年12月26日法務省告示第582号)の別表第二には、これら以外にも数多くの「入管外字」が収録されているのに、文字情報一覧表Ver.003.01には全く反映されていないようだ。さて、どうしたらいいかな…。

  • もじもじカフェ > 第38回「戸籍と住基とマイナンバーの文字コード」

    内容かつては手書きで行われていた戸籍事務ですが,二十年くらい前から自治体ごとに徐々にコンピュータ化されていきました。そこで問題になったのが,人名・地名の漢字の多さ,とくに異体字の多さです。例えば渡辺の「辺」をとってみても,「邊」「邉」など多数の異体字があります。既存の文字コードでは間に合わないため,自治体ごとに多数の外字を作っていました。しかし,自治体ごとにバラバラではデータ交換に著しい不都合が生じます。法務省は独自の文字コード「戸籍統一文字」を定めました。 一方,住民票のデータベースである住民基台帳では,総務省が住民基台帳ネットワーク統一文字という別の文字コードを定めました。 ここに,先日可決したマイナンバー法に基づくマイナンバーが加わることになります。マイナンバーではユニコードを使う方向で話が進んでいますが,さて一体どうなるのでしょうか。 今回は,文字コード研究家の安岡孝一さん(京

  • 安岡孝一(インターネット・文字の歴史など)

    安岡孝一の Universal DependenciesとBERT/RoBERTa/DeBERTaモデルによる多言語情報処理 京都大学人文科学研究所・未踏科学研究ユニット・データサイエンスで切り拓く総合地域研究ユニット (2024年2月). 住民基台帳ネットワーク漢字辞典 京都大学未踏科学研究ユニット・学知創生ユニット・人文科学研究所 (2019年1月). 日中国台湾・香港・韓国の常用漢字と漢字コード 京都大学未踏科学研究ユニット・学知創生ユニット・人文科学研究所 (2017年3月). [京都大学リポジトリ] 新しい常用漢字と人名用漢字 三省堂 (2011年3月), ISBN978-4-385-36523-7. 新常用漢字表の文字論 勉誠出版 (2009年12月), ISBN978-4-585-03227-4. [訂正] 石刻千字文 京都大学21世紀COE (2008年3月).

  • 日本の文字とUnicode 第6回 | 大修館書店 WEB国語教室

    現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日語に特化して作られたわけではないので、日の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第4回・第5回に引き続き、第6回も、漢字とUnicodeの関係です。 まずは「晴」(U+6674)のIVSを見てみましょう。 何だか妙な感じですね。同じ「晴」が<U+6674 U+E0100>と<U+6674 U+E0103>に、同じ「晴」が<U+6674 U+E0101>と<U+6674 U+E0102>に、それぞれダブって収録されているように見えます。実際そうなのです

  • 在留カードの簡体字等置き換えルールのバグ | yasuokaの日記 | スラド

    在留カード等に係る漢字氏名の表記等に関する告示(平成23年12月26日法務省告示第582号)の別表第四をチェックしてみたのだが、以下の「簡体字等の文字コード等」を「正字」に置き換えるルールは、どう考えてもおかしい。 50f4(僴) → 50e9(僩) 51ec(凬) → 98a8(風)もしくは51ee(凮) 5759(坙) → 5de0(巠) 5cf5(峵) → 5db8(嶸) 6120(愠) → 614d(慍)もしくは6028(怨) 6df2(淲) → 6eee(滮)もしくは6ef8(滸) 7682(皂) → 7681(皁)もしくは7680(皀) 8807(蠇) → 8823(蠣) 8d76(赶) → 8d95(趕) fa18(礼) → 793c(礼) fa1c(靖) → 9756(靖) fa23(﨣) → 8d73(赳) 4efc(仼) → 4efb(任) 6ae2(櫢) → 64fb

  • 在留カードの正字 | yasuokaの日記 | スラド

    在留カードの氏名欄では、簡体字の「营」や「萤」は常用漢字の「営」や「蛍」に直さなきゃいけないのに、なぜ簡体字の「荣」はそのまま氏名欄に印字されるのか、という意味の御質問をいただいた。端的に言えば、在留カードに限っては、「荣」は正字であって簡体字ではないからだ。平成23年12月26日法務省告示第582号での「正字」の定義を見てみよう。 正字 工業標準化法(昭和二十四年法律第百八十五号)に基づく日工業規格(以下「日工業規格」という。)X〇二二一号(以下「国際符号化文字集合」という。)に規定する漢字(国際符号化文字集合附属書JA日文字部分レパートリに該当するものに限る。)及び別表第一に定める漢字をいう。 要するに、JIS X 0221:2007の「日文字部分レパートリ」の漢字と、別表第一の漢字が、在留カードの正字にあたるわけである。ここで、「日文字部分レパートリ」の漢字は、そもそもJI

  • ヴィスタの文字セット - 日本語練習虫

    西岡裕二さんの2005-07-29 - 遠近法ノートによると、Internet Watchの記事Windows VistaにJIS X 0213:2004対応の新日フォント「メイリオ」が、ヴィスタの字体切替機能搭載予定について報じてゐたらしい。 「XMLと文字メーリングリスト」のMasatoshi Kimuraさんの記事(http://www2.xml.gr.jp/log.html?MLID=xmlmoji&N=1636)から辿った記事(http://winfx.msdn.microsoft.com/library/en-us/cpref/winfx/ref/ns/system.windows/e/fonteastasianlanguage/fonteastasianlanguage.asp)を眺め、ヴィスタの漢字セットはAdobe-Japan1-6(http://partners.a

    ヴィスタの文字セット - 日本語練習虫
  • 文字符号の歴史—欧米と日本編 | 配電盤

    安岡 孝一 (著), 安岡 素子 (著) 出版社: 共立出版 ; ISBN: 4320121023 ; 欧米と日編 巻 (February 2006) これはいいね 文字符号の成立過程やその内容に関しては、伝聞や根拠のない憶測はいっさい避け、あくまで文献によって裏づけのとれる事柄だけを、参考とした文献とともに示した。文献学や科学史研究においては、ごくあたりまえとされていることを、あたりまえにやっただけである。 文字符号についての基礎文献になることは間違いない 残念なのは、記述がJIS X 0213の制定(2000.1.20)までで終わっていること。私自身はJIS X 0213の文字セットをUnicodeで使うのが「現実」的だと考えているからまあいいのだが、特に人名・地名などで異体字にこだわる人もいて、そういう人にとって唯一の手段であろうAdobe-Japan1-5(2002.9.20)あ

    文字符号の歴史—欧米と日本編 | 配電盤
    works014
    works014 2011/03/07
    _CID8489とCID20305
  • 日本IT界の鬼っ子「外字問題」解消プロジェクト | yasuokaの日記 | スラド

    経産省が動いたのは、官民ともにインターネットによる電子的な手続きの導入が進むなか、正しい人名表記を扱う必要に迫られると考えたためだ。法務省が幅広い電子化を目指して04年にまとめた「戸籍統一文字」(5万6040字)をもとに5万8713字のデータベースを作る。 とあってズッコケた。いや、それ、去年の8月に公募していた文字情報基盤構築に関する研究開発事業のことで、翌月には発足したんだけど。 委員として参画している私(安岡孝一)が言うのも何だが、この事業で「外字問題」は少しは楽になるかもしれないけど、決して解消するわけではない。たとえば戸籍統一文字の552700は、この58713字には含まれていない。というのも、戸籍統一文字は56040字から3字増えて現在は56043字になっているが、増えた3字のうち552700「⿳宀癶山」は、現時点ではこの事業の対象になっていないからだ。 だったら「⿳宀癶山」を

  • 諸橋文庫『康煕字典』の「黑へん」 | yasuokaの日記 | スラド

    JIS X 0212の「黑へん」に関連して、諸橋文庫『康煕字典』(823-MW-1の方)の亥集下をチェックしてみた。䵥の右上を「刀」ではなく「ク」にしろ、とか、𪒙の右上を「日」ではなく「冃」っぽくしろ、とかの指示はあるものの、しかし、黤に対する字体指示はない。というか、この『康煕字典』の「黑へん」の8画目は全て横棒になっているので、『大漢和辞典』の石井明朝体の黤には別のソースがあるということだ。 一方、『広漢和辞典』の黤(検字番号20511)は、「黑へん」の8画目が横棒になっている。石井茂吉はとっくに他界しているが、『広漢和辞典』の石井明朝体では、わざわざ「黑へん」の8画目を横棒に統一したということだろう。おしむらくは、JIS C 6226-1978の時点で、石井明朝体の「黑へん」が統一されていなかったことだ。むー。

  • JIS X 0212の「黑へん」 | yasuokaの日記 | スラド

    JIS X 0212-1990の規格票を眺めていたところ、「黑へん」のところで妙なことに気づいた。JIS X 0212は76区の最後から77区の最初にかけて、黕・黟・黤・黬・黭・黮・黰・黲・黵・黸の「黑へん」10字を収録しているのだが、黤の「黑へん」だけ規格票でのデザインが違うのだ。規格票p.31を閲覧してもらえばわかるが、黤は「黑へん」の8画目が右上にハネあがっているのに対し、他は全て横棒だ。 どうしてこんなことになったのだろう、と、原案にあたる『印刷産業の情報処理高速化に関する調査研究報告書』のp.273をチェックしてみたところ、やはり、黤は「黑へん」の8画目が右上にハネあがっているのに対し、黕・黟・黬・黭・黮・黰・黲・黵・黸は横棒だった。もしやこれは、と思い、『大漢和辞典』をチェックしてみたところ、検字番号48117の「黑へん」は右上にハネあがっているのに対し、48057・48091

    works014
    works014 2010/12/17
    _『大漢和辞典』の石井明朝体におけるデザイン差を後生大事に踏襲していたわけ
  • 安岡孝一の日記: YEN SIGN問題縁起

    tarosukeの日記にもコメントしたのだが、YEN SIGN問題の歴史的経緯は、あまり知られていないように思える。そもそも、情報処理学会コード標準化委員会が1965年1月28日に完成した文字コード案では、「¥」は0x24に収録する予定だった。ところが、1966年4月のISO/TC97/SC2 + CCITT/GM ALPパリ会議において、ISO 7ビットコード最終案の0x24は「$」に固定されてしまい、1967年12月22日にISO R 646として制定された。やむをえず日側は0x5Cに「¥」を移し、JIS C 6220として1969年6月1日に制定した。一方アメリカは、1970年10月のISO/TC97/SC2ロンドン会議において、ISO R 646の0x5Cを「\」にするよう要求してきたが、日はこれに反対、ISO 646の1973年7月1日改正においても、0x5Cを国内使用箇所と

  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
  • ワープロの絵文字 | yasuokaの日記 | スラド

    SHARP書院WD-A521のマニュアル「WD-A521/A541/A551 日語ワードプロセッサ取扱説明書(文書編)」を読んでいたところ、文字コードの記号一覧のところに、絵文字が160種類ほど収録されているのを見つけた。絵文字の中にマル金とマルビが含まれていることから、あるいは1984年頃にデザインされた可能性が考えられるが、WD-A521それ自体は1990年11月の発売だ。だとすると、これより古い書院にも、絵文字が搭載されているのかもしれない。 ただ、ワープロのマニュアルは、どこの図書館を探しても所蔵がない。SHARPも、既に当時のマニュアルは破棄してしまっており、全く在庫がないようだ。だとすると、個人蔵のマニュアルを探すことになるのだけど、全く雲をつかむような話で…。この日記を読んだ方で、手元に古いワープロ(書院に限らない)のマニュアルをお持ちの方は、ぜひ文字コードのページを調べて

  • 『日本のルールは間違いだらけ』は間違いだらけ | yasuokaの日記 | スラド

    たくきよしみつの『日のルールは間違いだらけ』(講談社現代新書2017、2009年10月)を読みかけたのだが、内容にあまりにも事実誤認が多く、第一章の途中で力尽きた。私(安岡孝一)が力尽きる直前までのガセネタを、以下にざっと並べて晒しておく。 このように、日式ローマ字のルールが最初からかなり曖昧だったため、一度しっかりしたルールを決め直そうという意図で、1937(昭和12)年に、内閣訓令第3号として公布されたのが「訓令式ローマ字」だ。(p.20)

  • JW-10の文字コード | yasuokaの日記 | スラド

    見澤浩の『日のエレクトロニクスを支えた技術「日語ワープロ」第1回』(週刊BEACON, 2009年10月23日)を読んでいたところ、東芝JW-10に関して、かなりアヤシゲな記述が目に入った。 「日語ワープロ」が衝撃的にデビューしたのは1978年(昭和53年)の年末、東芝の「JW-10」だった。価格は630万円で、当時の物価の中での630万円はかなり高価な機械と言えるだろう。それでも「JW-10」の反響は大きかった。… 日語の場合は、漢字という難題がついてまわる。漢字は常用漢字に限っても1945字あり、人名漢字284字を合わせると2,229字に及ぶ。この漢字をどのようにして簡単、高速に入力できるかは、大きな問題だった。 常用漢字表の内閣告示は1981年10月なので、JW-10の発表(1978年9月)や出荷開始(1979年2月)時点では、まだ当用漢字表1850字が健在だったりする。また

  • 新漢字表試案とJIS C 6226-1978 | yasuokaの日記 | スラド

    国立国会図書館で1970年代の雑誌を漁っていたら、『漢字コード統一化をめぐって』(コンピュートピア, Vol.11, No.132 (1977年9月), pp.57-59)という記事に、以下の記述を見つけた。 JIS規格案では,基準となる漢字を二つのグループに分けている。第1水準漢字集合として2,965字,これは当用漢字(同補正案)を主として,人名用漢字別表や,当用漢字以外で広く使用されている漢字のグループである。第2水準集合は3,385字,これは第1グループよりも使用頻度は少ないが,一応必要であるという漢字で,37種類にのぼる種々の漢字に関する調査,研究書の頻度をさらに統合,これに情報処理学会標準コード用漢字表および行政情報処理用基漢字にもとづく補正を加え,選定された。この第1,第2水準のグループ分けは,確定のものではなく,正式なJIS規格発表時には,多少の変更があるかもしれない。 こ

  • (新)常用漢字とJIS改正 | yasuokaの日記 | スラド

    福岡のUnicodeさんのとこにコメントしながら思ったのだが、常用漢字が変わった場合、どのJISを改正する必要が生じるだろう? とりあえずJIS X 0208は、現在の「常用漢字表」の音訓を“[常]”で示しているので、少なくともその点は改正の必要がある。追加される191字も問題だが、規格としては、むしろ「銑」「錘」「勺」「匁」「脹」から“[常]”を外す方が先決だろう。それをやった上で、他の音訓の追加をやるなり、例示字体を変更するなり、あるいは「𠮟」「塡」「剝」「頰」を別区点に追加(つまりは包摂分離)するなり、必要な改正をおこなうことになるだろう。 それからJIS Z 8903も当然、改正の必要がある。何せタイトルに「常用漢字」を含んでいるのだ。しかし、191字もの原版用書体を新たに起こすとしても、「」なんてどうやってデザインするんだろう。あるいは、無理矢理デザインしたとしても、「」な

  • JW-10とJIS C 6226 | yasuokaの日記 | スラド

    『パソコンは日語をどう変えたか』(講談社, 2008年8月)を読んだのだが、文字コード関係の部分は誤りが多くて、正直なところ読むに耐えなかった。たとえばpp.136-137のJIS C 6226 (現JIS X 0208)制定のくだり。 そこで日工業標準調査会は、漢字も含めた新しい規格の制定に乗り出す。これが「JIS X 0208」、通称「78JIS」で、1978年に制定された。汎用的に日語を扱うことに成功した富士通のJEF、ワープロ一号機である東芝のJW-10が生まれた背景には、この文字コードの制定があった。78JISには、0201に包摂された数字、ラテン文字、カナ、記号に加え、「第1水準」、「第2水準」の漢字6355文字が収録された。第1水準とは、当用漢字表などを基準に採用された2965字で、いわば「よく使う漢字」。これに対して第2水準は第1水準から漏れた人名用漢字、部首や旧字体