タグ

文字コードに関するworks014のブックマーク (405)

  • ISO国際登録簿の JIS X 0213:2000 - しろもじメモランダム

    ISO国際登録簿なるものがあって、これは ISO 2022 のエスケープシーケンスと、符号化文字集合とを対応付けているらしい。さまざまな文字集合が登録されていて、下のページにそのPDFが置いてある。 INTERNATIONAL REGISTER OF CODED CHARACTER SETS TO BE USED WITH ESCAPE SEQUENCES で、2000年1月20日に制定された JIS X 0213:2000 も、2000年7月31日に登録されている。 [PDF] ISO-IR 228 Japanese Graphic Character Set for Information Interchange --- Plane 1 [PDF] ISO-IR 229 Japanese Graphic Character Set for Information Interchange

  • JW-10とJIS C 6226 | yasuokaの日記 | スラド

    『パソコンは日語をどう変えたか』(講談社, 2008年8月)を読んだのだが、文字コード関係の部分は誤りが多くて、正直なところ読むに耐えなかった。たとえばpp.136-137のJIS C 6226 (現JIS X 0208)制定のくだり。 そこで日工業標準調査会は、漢字も含めた新しい規格の制定に乗り出す。これが「JIS X 0208」、通称「78JIS」で、1978年に制定された。汎用的に日語を扱うことに成功した富士通のJEF、ワープロ一号機である東芝のJW-10が生まれた背景には、この文字コードの制定があった。78JISには、0201に包摂された数字、ラテン文字、カナ、記号に加え、「第1水準」、「第2水準」の漢字6355文字が収録された。第1水準とは、当用漢字表などを基準に採用された2965字で、いわば「よく使う漢字」。これに対して第2水準は第1水準から漏れた人名用漢字、部首や旧字体

  • 機種依存文字劇場

    特定機種にのみ存在する文字のこと。 有名なものとしては98文字(PC-9801外字)などが該当する。これは丸付き数字、ローマ数字、98罫線などがそれである。 また98拡張漢字のもととなったIBM拡張漢字などもある。 これらはすべてWindowsでも表示可能なため、外字であることに気付かずに使用してしまう事例が増えてしまい、問題を起こすことが多い。また、Macintoshにも機種依存文字は存在する。 機種依存文字は特定の機種や環境(OS)に依存する文字であり、同一環境以外で表示させた場合、機器の誤動作(突如フロッピーディスクをアクセスする等)や、全く異なった文字に化けたりするため、使った場所には往々にして論争が起こる。また汎用的な文書の流通を目的とする場合には、当然ながら使用する事はできない。

  • メイリオは補助漢字をサポートしていない - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    周知のことなのかもしれないが、わたしは今日まで知らなかった。MS明朝およびMSゴシックが補助漢字(JIS X 0212)をサポートしているのに対して、メイリオのグリフセットは、漢字に限定すればAdobe-Japan1-5と同じであり、補助漢字のレパートリをカバーするものではない。*1 Microsoftは1998年のWindows 98で補助漢字をサポートし、Appleは2001年のMac OS X 10.1でJIS X 0213をサポートした。「補助漢字重視のMicrosoft、0213重視のApple」という構図があったと言ってよいと思う。 Windows VistaのJIS X 0213:2004対応にしても、0213重視というよりは、表外漢字字体表(印刷標準字体)対応という意味合いが強かったと思う。しかし、メイリオが補助漢字をサポートしていないという事実を踏まえると、Microso

    メイリオは補助漢字をサポートしていない - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • C:\Shikeda\new\Hokudai\Newold2e.dvi

    新旧分離字と新旧包摂字 _-,6 漢字の所拠漢字表と包摂規準_ 池 田 証 寿 要  旨 -,6 漢字では旧字体(康煕字典体)のすべてが例示字体として示されていない。これは字 形の違いが僅かなものは同値として同一の符号位置を与えたからである。現行の -,6 漢字の規 格票ではこれを字体の「包摂」と呼ぶ。この措置は、性能が飛躍的に向上したといわれる現在 のコンピュータの処理能力を配慮しても妥当といえる。 新字体とは別に独立の区点位置を与えられている旧字体は、所拠の漢字表で区別されてい たからである。字形の違いが僅かであっても所拠の漢字表に出現すれば例外的に旧字体が採録 されている。例外は人名の漢字表を所拠とする漢字に目立つ。 はじめに  この論の筆者である池田は、 年から現在( 年)に至るまで、符号化文字集合(-&6) 調査研究委員会(主査:芝野耕司東京国際大

  • 漢字コードの標準化

  • 日下部表とJIS漢字 | CiNii Research

    「日下部表」と称する資料は,JIS漢字第1次規格(JIS C 6226-1978)の原典の一つである「標準コード用漢字表(試案)」(情報処理学会漢字コード委員会,1971年)の土台となった漢字表であり,日下部重太郎の著した『現代国語思潮続編』(中文館書店,1933年)に附録「現代日の実用漢字と別体漢字との調査及び「常用漢字」の価値の研究」として掲げられている。この研究では,(1)JIS漢字の字種の選定に果たした日下部表の位置,(2)日下部表の「別体漢字」とJIS漢字における異体字の扱いとの関係,(3)日下部表に反映した現代日語の漢字の使用実態,の3点について日下部表の内容を検証し,次の結論を得た。(1)日下部表掲載の漢字6473字のうち,JIS X 0208:1997で符号化可能なのは約90%,JIS X 0213:2000で符号化可能なのは約97%である。(2)日下部表の「別体漢字」

    works014
    works014 2008/08/23
    日下部表
  • 「X0213正誤票」を読む

    内容の解析 今回の正誤票の内容は、以下の4つの修正に分類される。 2-79-54の字形崩れの修正 「闘」の常用漢字表康煕別掲字のUCS、X0212コード修正 1-1-29(全角ダッシュ)のUCS修正 γ(軟口蓋化)の面区点修正 2-79-54の字形崩れの修正 2面79区54点がという風に上部の「泉」の「白」上部が崩れていたもの。正誤票の(1),(5),(6),(7),(8),(9),(11)で修正されている。「字」は規格の「規定」にかかわる事項である。単純なミスであろう。 「闘」の常用漢字表康煕別掲字のUCS、X0212コード修正 「闘」の常用漢字表康煕別掲字、1面94区31点のX0221およびX0212の修正。それぞれ正誤票の(3),(4)で修正されている。前者は規格の「規定」にかかわる事項、後者は規格の「参考」にかかわる事項である。これらの修正に伴い、正誤票の(10),(12),(13

  • クリップボードの中身を考察してみる - 実験る~む

    ある意味どうでもいいことや、役立つかどうかもわからないような中身を、日々脳内から適当に垂れ流しまくりつつ、今日をなんとか生き存えることを思案してます。 どうも、個人的にいろいろあって落ち込んでいるわしです。 てことで、この間からちまちまやっている(というほどやっていないものの)、互換漢字〔正規化表現文字〕をコピー&ペーストしたときの挙動についてです。現在のエントリでいうと、こちらとこちらのふたつ。 エントリでは、以前のコメント欄で予告した通り、簡単ながら起こした図版を元に説明してみます。 もっとも、APIやアプリケーションの挙動そのものは推測が多分に混じってるので誤りの可能性もありますが、という前提をつけときます。あしからず。 「Uncode(UTF-16)を含む情報をクリップボードを介した場合における、OSおよび一般的なアプリケーション間の挙動(としての推測)」に絞っているので、個々の

  • 外字問題を根本的に解決するインデックスフォント

    漢字は甲骨文字から始まり3000年という歴史のあるもので、文字は文化資産である。コンピュータで漢字を扱うための文字コードは、30年程度の歴史しかない。社会的な要請として、漢字は少ない方がよいという考え方もあり、それが国語施策や教育漢字に反映されてきた。 しかし、現在のコンピュータ環境はどんなに文字が多くても扱うことができる。デジタル環境で漢字文化を継承するという課題は、印刷出版業界の重要なテーマとなっている。 ■文字のインデックス化の必要性 コード化されていない外字は、今まで必要に迫られ、ローカルに、テンポラリーに対応されてきた。印刷会社やベンダーがそれぞれ独自の文字セットを構築し、管理している。また、文字コードの中にも包摂や例示字形の変更などがあるため、文字セットの違いで文字化けが発生する。これらは、文字コードが文字図形と1対1で対応していないために起こる。 文字コードと文字政策も紆余曲

  • Windowsでもやってみた。 - 実験る~む

    かれこれ一ヶ月以上前の話になってしまいます、が。 以前に「Mac OS Xの文字コード問題に関するメモ」のNAOIさんが行っていた、「Adobe-Japan1のCJK互換漢字とInDesign CS3」について、Windowsではどうなるのかしらんと思って、同様のテストを行ってみたり。 IBM互換漢字・32字 JIS X 0213互換漢字・59字 KS X 1001互換漢字領域・19(+2)字 CNS 11643互換漢字領域・45字 テキストは、Windows XP標準の「メモ帳」(表示フォント:小塚明朝 Pro-VI R Ver 6.010[Acrobat8付属])+「ATOK 17」or「MS-IME 2003」のいずれかの文字コード表より入力したもの(都合により入力だけ複数の環境で行っています)を利用しています。 「メモ帳」「InDesign CS3」双方より、PDF出力(前者・「A

  • Adobe-Japan1のCJK互換漢字とInDesign CS3 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InDesign CS3にCJK互換漢字をペーストしたときのUnicode正規化による文字化けについて、以前のエントリでは例として3文字のみを挙げた。今回は、化ける文字すべてを示してみようと思う。また、このうち人名用漢字が化ける例がどれだけあるかを、併せて見てみることとする。 CJK互換漢字は、ソースによっていくつかのグループに分類することができる。そのうちAdobe-Japan1との対応関係が存在するのは、U+FA0E..U+FA2DのIBM互換漢字、U+FA30..U+FA6AのJIS X 0213互換漢字、U+F900..U+FA0BのKS X 1001互換漢字、U+2F800..U+2FA1DのCNS 11643互換漢字である。 IBM互換漢字32文字を下図左側に示す。グレー地の12文字は「CJK COMPATIBILITY IDEOGRAPH」という名前を持っているが、その属性は

    Adobe-Japan1のCJK互換漢字とInDesign CS3 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 「Unicodeに入った漢字」と「まだUnicodeにない漢字」 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Acrobat 9に付属するKozMinPr6-Regular 6.004は、最新のcmap(「CMapのバージョンの違い」を参照)を採用しており、Unicode 5.1で追加された7文字の漢字が、新たにUnicodeの符号位置と対応付けられている(下図)。 これら7文字はもともとAdobe-Japan1をソースとしてISO/IEC 10646に提案されたものである。提案時には「この7文字がUnicodeに収録されれば、Adobe-Japan1の漢字はすべてUnicodeのIVS(異体字シーケンス)で表現することができる」と考えられていたのだろう。 しかしその後、Adobe-Japan1異体字シーケンス登録の1回目の公開レビュー(http://www.unicode.org/ivd/pri/pri98/index.html)を経て、下図グレー字の20文字(下に付した数字はCID)が「Uni

    「Unicodeに入った漢字」と「まだUnicodeにない漢字」 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • http://hermes-ir.lib.hit-u.ac.jp/rs/bitstream/10086/10307/1/ronso1270300980.pdf

  • 京都大学の東洋学セミナーへ - もじのなまえ

    24日は朝5時にとび起き、寝ぼけ眼の子供を連れて新幹線に。京都大学の東洋学セミナーに参加するためです。この日が春休み初日の子供を、京都駅までお出迎えのお婆ちゃんにバトンタッチすると、単身京都大学の吉田キャンパスにむかいました。 ちなみに子供は、この後5日ほど大阪のじじばば宅でわがまま放題をした後、ANAキッズらくのりサービスを利用して、飛行機で帰京の予定。 それにしても航空会社も面白いサービスを考え出したもの。運航中は密室になる航空便は、子供を持つ者にとっては縁遠いものになりがちだったけれど、この特性を逆手にとれば、送り迎えする者の連絡先を事前に申請させ、客室乗務員の近くに座席を配するだけで、子供の安全を保障することが可能になる(墜ちさえしなければ、ねw)。途中下車が多く、不特定多数が出入りする新幹線では、こういうサービスは成立し得ないわけです。 これにより親は同行する時間的経済的コストを

    京都大学の東洋学セミナーへ - もじのなまえ
  • JIS X O208改訂

    《愚者の後知恵》今はない電子ライブラリーコンソーシアムの機関誌への寄稿。第2回。現時点(2004年6月)で読み返してみると、この原稿執筆時点で、JIS X 0208の97改正、JIS X 2013:2000制定の問題点が、ある程度顕在化していたことが分かる。この時点で、国語審議会答申『表外漢字字体表』の主旨を生かすためのJIS文字コードの改正に関わるとは、夢想さえしていなかった。 JIS X O208改訂 われわれが日常用いている専用ワープロやパーソナルコンピューターは,ご存じのように漢字を扱うことができる。一昔(まさに十年)前までは,手元 のコンピューターで漢字を扱えること自体が大きな驚異だった。しかし,今ではある程度までは自由自在,そして,できないことに対する不満が一杯,と いう状態になっている。今回は,パーソナルコンピューターで漢字を扱うことの現状を,それを支えるJISコードの側面

  • 安岡孝一の日記: 蛍はなぜ第1水準にあるのか

    イワマン日記にもコメントしたのだが、JIS C 6226(現、JIS X 0208)の制定以来ずっと、蛍が第1水準(23区54点)に収録されているのは、結構ブキミだったりする。というのも、JIS C 6226-1978の解説には (a) 当用漢字等では,新字体を第1水準に,旧字体を第2水準におく。 (b) その他の文字では,字を第1水準に,俗字・略字等を第2水準におく。 (c) いずれの字形も第1水準に採用するに及ばないものは,共に第2水準におく。 と書かれているからだ。すなわち、当用漢字でも当用漢字補正案でも人名用漢字でもない蛍と螢については、(b)にしたがい螢を第1水準に、蛍を第2水準におくべきだということになる。が、JIS C 6226制定(1978年1月1日)時点で、そうなっていなかったわけだ。ところが「情報交換のための漢字符号の標準化に関する調査研究報告書」(日情報処理開発セ

  • untitled

    JIS (1976) JIS C 6226-1978 ∗ † 1 1974 5 [2, 4] 2 ( ) ( JIS ) [5] JIS 1978 1 1 JIS C 6226-1978 ( JIS C 6226-1978 ) [8, 9] JIS JIS C 6226-1978 [17] ‡ JIS JIS JIS C 6226-1978 2 JIS JIS C 6226-1978 2.1 JIS JIS ( ) 1976 3 [5] pp.4-52 JIS C 6228 [3] 94 94 6803 ( 1) 6803 453 1 2965 2 3385 ∗ 17 (2006 3 24 ) † ‡ ( 32 ) ( 29 ) 11 3 2 [5, 8] [17](p.84) 3 1 2 [5](p.13) JIS 1: ( ) [5](pp.9-10) 4 2: JIS C 6226-

  • 2008年版のAdobe-Japan1-6で変更された点 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    今年の2月に出たAdobe-Japan1-6のTechNote(http://www.adobe.com/devnet/font/pdfs/5078.Adobe-Japan1-6.pdf)には、その前のバージョン(2004年版)からの変更点について、以下のように記されている。 The glyphs for CIDs 740, 1879, 8270, 12068, and 13300 were corrected. KozMinPr6N-Regular (Kozuka Mincho Pr6N R) CIDFontVersion=6.002 is used to print the glyphs. The entire document was completely re-written. これによると、修正されたグリフは5つ。そのうちの1つは「牽」で、JIS X 0208:1990で用いられ

    2008年版のAdobe-Japan1-6で変更された点 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    works014
    works014 2008/06/20
    私も気になっていた
  • 文字コード入門

    コンテンツ一覧 インデックスページ←いまここ コンピュータ上での数値の扱い コンピュータで文字を扱うには? ASCIIとJISローマ字 JIS漢字コード:JIS第一・第二水準 JIS補助漢字・第三・第四水準漢字 中国の文字コード 台湾の文字コード Unicode 大規模文字集合 参考資料(書籍) ページを作るにあたって参考にした書籍です。 川俣晶『パソコンにおける日語処理文字コードハンドブック』技術評論社 芝野耕司編『JIS漢字字典』日規格協会 漢字文献情報処理研究会編『電脳中国学』『電脳中国学II』『電脳中国学入門』好文出版 小池和夫/府川充男/直井靖/永瀬唯/『漢字問題と文字コード』 太田出版 1999 安岡孝一/素子『文字コードの世界』 東京電気大学出版局 1999 ユニコード漢字情報辞典編纂委員会編 『ユニコード漢字情報辞典』 三省堂 2000 小林/安岡/戸村/三上編 bi