タグ

文字コードに関するworks014のブックマーク (405)

  • そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記

    文字コードの標準化について日記を書いたのだが、内容がいまいちだったのでボツにして気を取り直してUnicodeについて一言いっておくことにする。先日、といっても昨年(2008年)の10月なんだけど、その中でちょと文字コードの標準化について話をしている。*1 もう1つ自分の経験としてあるのが、漢字の文字コードがあるんですけど、番号で言うとJIS X 0208とか0212とか規格の番号で皆言うわけなんですけど、実は1988年にその日語の文字コードの改正の委員会にいたんですね。 その当時、私は 30歳ぐらいなんですけど、「富士通」とか「日立」とか「NEC」の部長さんぐらいの偉い人たちが来てて、私なんか外資系で且つ30前後のぺーぺーだから、全然格下なんですよ。 そういうところで議論の主軸を担ってるのは、「富士通」「日立」「NEC」「日IBM」「東芝」「沖」、外資でいえば「ユニシス」とかの錚々たる

    そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記
  • サロゲートペア入門

    はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日語漢字の数が増えました。従来、12238字(Windows XP)だったのが13145字(Windows Vista)になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです(Windows XPまでは一部サポート)。 またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。 ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。 対象読者 Unicodeでデータ処理

    サロゲートペア入門
  • 東洋学へのコンピュータ利用

    「東洋学へのコンピュータ利用」研究セミナー 第39回は2025年7月25日(金)に京都大学人文科学研究所で開催いたします。 プログラムが決まりしだい掲載いたします。 過去の「東洋学へのコンピュータ利用」研究セミナー

  • 新常用漢字表試案の情報機器についての認識 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    「新常用漢字表(仮称)」に関する試案(http://www.bunka.go.jp/bunkashingikai/soukai/47/pdf/shiryo_2_2.pdf)の「追加字種における字体の考え方」には、次のような記述がある。 どちらもUnicodeに入っている「頬(U+982C)」と「頰(U+9830)」が情報機器で「頰」に統一される「近い将来」って、いつ?

    新常用漢字表試案の情報機器についての認識 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    works014
    works014 2009/02/25
    『「統一される」は言いすぎだろってこと』
  • 『電子出版における文字:懶惰を具体例として - 明窓浄机 YAMAMOMO』へのコメント

    ブックマークしました ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください Twitterで共有

    『電子出版における文字:懶惰を具体例として - 明窓浄机 YAMAMOMO』へのコメント
  • 電子出版における文字 - 明窓浄机 YAMAMOMO

    2009/02/15 當山日出夫 「やまもも書斎記」の方に、あれこれと書いた。それを、ここの場で、ある程度のまとめをしておきたい。電子出版における文字とは、どうあるべきなのか、という点についてである。 とりあえず、念頭にあるのは『内村鑑三全集』のDVD版の刊行。経緯をまとめてみる。 すでにあるのは、 ・岩波書店の全40巻の全集を、忠実に一太郎で再現した文書データ(一太郎文書ファイル)。ルビ・柱、凡例から奥付にいたるまで、完璧にである。 これをどうするかというと、 ・PDFによって、DVD版内村鑑三全集として、世にだすこと。 ここで、考え方は、二つある。 1.紙の(書籍)の再刊が、現状では不可能であるので、電子出版にする。せざるをえない。やむをえない。 2.デジタルデータとしてあるならば、それに対する検索が可能になる。それを可能にした、新しい内村全集をつくる。デジタル環境での、内村鑑三研究

    電子出版における文字 - 明窓浄机 YAMAMOMO
  • 電子出版における良心的とは: やまもも書斎記

    2009/02/13 當山日出夫 『内村鑑三全集』のデジタル版の件については、先日の、ワークショップ(国語研)でも、斎藤みちさんから紹介があった。 この仕事で、今、私が、考えていることは、電子出版における、文字のあつかい。その「良心的」な態度とは、ということ。 簡単にいえば、 1. どのような手段をつかおうが、文字を正確に見えるようにする。この場合、全部が、「画像」であるならば、問題ない。しかし、テキスト、あるいは、PDFで、となると、そう簡単にはいかない。なんらかのグリフをそこに埋め込んで、見えるようにする。しかし、この場合、処理の方法によっては、コピーして、ワープロにもっていったら、とたんに字が化けることがあり得る。(現在のデータは、そうなっている。) 2. 逆に、見えない字があることを前提に、ゲタ(〓)にする。どうみても、今の時代の、日のコンピュータで使用できる漢字は、混乱している

  • JIS X 0208外字 目次

    文学作品に現れたJIS X 0208にない文字 1999年2月28日 作成 1999年3月30日 修正 これは、普段私たちが使っているJIS漢字コード(JIS X 0208)にない文字を集めたリストです。 青空文庫を開き、古典的な作品の入力をはじめると、JIS漢字コードにない文字に、しばしば出くわすようになりました。 たくさんの人が読んできた文章の中の、どんな文字が表せないのか、一目で明らかにできれば、現在の漢字コードの問題点を見きわめるうえでも、より良いものに変えていくためにも、役に立つだろう。そう考えて、リストのまとめに取りかかりました。 1999年度中の制定を目指して、JIS漢字コードを拡張する計画が進んでいます。(くわしくは、関連のページをご覧ください。)どんな文字を加えるか、原案が示され、広く意見が求められました。 この機会に、青空文庫としての要望をまとめたいと考え、1999年2

  • JIS04基準フォントの'jp83'サポート - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    JIS04基準フォントのGSUB(グリフ置換)テーブルは、JIS90基準フォントのそれに「建増し」したような構成となっている。*1 たとえばJIS90基準フォントでは、「訝」の標準グリフ(デフォルトのグリフ)はCID+6662であり、'jp83'置換は「CID+6662→CID+13601」である。JIS04基準フォントでは「訝」の標準グリフはCID+20268なので、'jp83'置換は「CID+20268→CID+13601」だが、これに加えて「CID+6662→CID+13601」も残っている。以下の図では、'jp83'置換を青矢印で示した。 このように、'jp04'グリフ、'jp90'グリフ、'jp83'グリフがそれぞれ異なるケースでは、JIS04基準フォントの'jp83'置換は2対1となる。同様の例は、下図のとおり。*2 また、'jp90'グリフと'jp83'グリフが異なり、'jp

    JIS04基準フォントの'jp83'サポート - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 携帯電話の絵文字のUnicode登録をめぐる議論の動向 - moroshigeki's blog

    「第2回ワークショップ: 文字 ―文字の規範―」において、「携帯電話の絵文字のUnicode登録をめぐる議論の動向」という題でしゃべってきた。その時スライドに書いたりしゃべったことを、以下にメモしておく。 はじめに 問題の所在 2008年12月、Googleが日の携帯電話の絵文字をUnicodeに登録するための提案を発表したところ、Unicodeのメーリングリスト上で激論が発生した(1ヶ月で600通超)。この議論の中で、しばしば反対意見の中で「規範」を持ち出した意見が出ていた。したがって、ワークショップのテーマである「文字の規範」を考えるネタとして、おもしろいのではないかと思う。 おことわり 以下の議論の概観は、メーリングリスト(Unicode Public Email List、Google グループ)をもとにしているが、細かい議論を端折ったり、時間が離れた議論をくっつけたりしている

    携帯電話の絵文字のUnicode登録をめぐる議論の動向 - moroshigeki's blog
  • フォントの字体変更は文字コードの話題か?: 文字符号化blog

    JIS X 0213:2004が (包摂の範囲内で) 例示字形を変更したために、この変更に追随して字体設計を変更するフォントがいくつかあるようです。「辻」のしんにょうが1点か2点か、というのはこのレベルの話です。さて、これは文字コードの話題でしょうか? 文字コードとは、文字とバイト表現との対応を規定するものです。あるバイト表現に対応する文字がどのような字体をとるかは、包摂の範囲内において、設計者の方針次第です。文字コードの問題ではありません。JIS X 0208/0213では、しんにょうの点が1点か2点かは、文字コードとして区別しないことが明記されています。 なので、「辻」のしんにょうの点の数の如き問題は、文字コードの話題ではありません。フォントの話です。文字コードについて雑誌記事などを書く人におかれては、是非こうした区別に敏感であってほしいと思います。 補足すると、字体変更が包摂規準の範

  • JIS2000/2004情報

    2000年はじめに JIS X 0213:2000 いわゆる JIS2000 が発表されました。 JIS2000 では,従来の非漢字+第1水準+第2水準の計約 6800 字に加えて新たに約 4300 の文字が定義されました。 また,2004年には,第3水準における10文字の追加と第1水準・第2水準における168文字の例示字形の変更がありました (JIS X 0213:2004 いわゆる JIS2004)。 じつは,JIS2000 への対応は Unicode ベースでは進んでいました。 JIS2000 文字の Unicode への登録が完了したのが 2002 年なので,この時期以降に出た多くのフォントには JIS2000 の文字が含まれています。 また,Mac OSXWindows2000/XP は OS レベルで Unicode に対応しているので,フォントとアプリケーションが対応し

  • PC 98文字セット(Ext)固有の文字 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    前回の註で触れた「PC 98文字セット(Ext)固有の文字」について。CIDフォントPC 98をサポートするために、[Ext]という文字セット(CMapテーブル)を持っていた。 システム外字を別にすれば、[Ext]は基的にJIS78の第1刷を参照しており、「冑」に限って第4刷以降の例示字体を採用している。[Ext]固有の(Adobeが定義している他の文字セットには含まれない)グリフは、下図の8文字。このうちCIDを赤字で示した「嗤」「幤」「藜」「雎」は、JIS78の正誤表で誤とされたもの。 CIDフォントのCMapテーブルのなかでJIS78を参照するものとしては、[Ext]の他に[78]がある。[78]はJIS78の第10刷(最終刷)に基づいている。[Ext]と[78]では、前述の8文字を含めて下図の12文字が異なる。 OpenTypeのAdobe-Japan1フォント(JIS90基準

    PC 98文字セット(Ext)固有の文字 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    works014
    works014 2009/01/29
    78,Ext「標準のグリフとの差分を集めたもの」=OTFの78
  • (新)常用漢字とJIS改正 | yasuokaの日記 | スラド

    福岡のUnicodeさんのとこにコメントしながら思ったのだが、常用漢字が変わった場合、どのJISを改正する必要が生じるだろう? とりあえずJIS X 0208は、現在の「常用漢字表」の音訓を“[常]”で示しているので、少なくともその点は改正の必要がある。追加される191字も問題だが、規格としては、むしろ「銑」「錘」「勺」「匁」「脹」から“[常]”を外す方が先決だろう。それをやった上で、他の音訓の追加をやるなり、例示字体を変更するなり、あるいは「𠮟」「塡」「剝」「頰」を別区点に追加(つまりは包摂分離)するなり、必要な改正をおこなうことになるだろう。 それからJIS Z 8903も当然、改正の必要がある。何せタイトルに「常用漢字」を含んでいるのだ。しかし、191字もの原版用書体を新たに起こすとしても、「」なんてどうやってデザインするんだろう。あるいは、無理矢理デザインしたとしても、「」な

  • ウェブリブログ:サービスは終了しました。

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    ウェブリブログ:サービスは終了しました。
  • 試案における最大の問題点は「頰、塡、剝、𠮟」 - もじのなまえ

    安岡さんの日記でも触れられていますね。 「「口へんに七」と「口へんに匕」」 この問題については同じく安岡さんの日記「(新)常用漢字と携帯電話」へのコメントでも書いたことがあります。 これについて詳しく書きたいところですが、今ちょっと時間がないので来月に出る予定の『論集文字 新常用漢字を問う』(勉誠出版)に寄せた原稿*1の註をベースに書くことをお許しください。 試案にある追加191字はほとんどがJIS X 0208で表現できるが、4文字だけJIS X 0213でないと符号化できない文字がある。「頰、塡、剝、𠮟」だ。新しい常用漢字表が現実に運用されるようになれば、もっとも大きな問題になるのはこの4字ではないか。 なぜならば、現状ではまだJIS X 0213の文字セットは完全に普及したとは言えず、携帯電話におけるシフトJISや、インターネットメールやウェブにおけるISO-2022-JPなど、文

    試案における最大の問題点は「頰、塡、剝、𠮟」 - もじのなまえ
  • (新)常用漢字と携帯電話 | yasuokaの日記 | スラド

    小形さんのとこ経由でいただいた一昨日の漢字小委員会の資料を、ざーっとチェックしていたのだが、(新)常用漢字表の〔表の見方〕にある以下の付則は、かなりタチが悪い。 情報機器に搭載されている印刷文字の関係で,表の掲出字体とは異なる字体(掲出字体「頰・賭・剝」に対する「頬・賭・剥」など)しか使用できない場合については,当該の字体の使用を妨げるものではない。 この付則を額面どおり受け取ると、携帯電話とかのJIS X 0208搭載機器では、(新)常用漢字への移行が非常にまずい形でおこなわれることになる。「剥」を搭載した現状の機器に対し、39区77点をそのまま「剝」に入れ換えるだけ、という対応がもっとも現実的ということになるのだ。この方法はJIS X 0208には違反しないが、ISO 10646との変換を考えると、かなり危険な選択肢だ。それを、(新)常用漢字が勝手に「どちらでもいい」と言ってしまうわ

  • 論文「近代活字史料のデジタル化と文字コード処理」のページ―伊藤信哉研究室

    書誌情報 名称:近代活字史料のデジタル化と文字コード処理 種別:論文(学術誌に収録されたもの) 単著/共著の別:単著 発行年月:2005年3月 発表誌:『松山法学』(松山大学)第7号 ISSN:13497537 ページ数:1―35頁(35頁) △先頭に戻る 概要 1.論文の要旨 稿は、筆者が編著書『外交時報総目次・執筆者索引:戦前編』を作成する際に直面した、近代の活字史料をデジタルデータ化するにあたつての諸問題、とくに文字コードに関る問題を分析したものである。 この種の史料は、しばしば「旧字体を新字体に改める」といふ形で処理されることが多いが、実は、問題はそれほど単純ではない。筆画が微妙にことなる異体字をどう統合・区別するか。史料自体に新旧の字体が併存し、しかも両者の字義が異る場合(予と豫、余と餘など)はどうするか。また同音の漢字による書換へ(代用字・代用語)をどのやうに取扱ふか、などの

  • 83JISの字形について、ここまでのまとめ - しろもじメモランダム

    これまでのエントリ(日付の古い順) Adobe-Japan1 の「絳」 - しろもじメモランダム 第一水準の83字形を比較してみる - しろもじメモランダム 第二水準の83字形も比較してみる - しろもじメモランダム 『現代日の異体字』の83字形 - しろもじメモランダム JIS漢字字典の83字形 - しろもじメモランダム(2008-12-07 追加) GlyphWikiで83字形のグリフが揃った - しろもじメモランダム(2008-12-16 追加) とりあえずのまとめ JIS X 0208-1983*1 → JIS X 0208:1990 の改定で、規格票の字形が変わった 印刷に使われている書体が石井明朝体から平成明朝体になった 字形の差は、これらの書体のデザインの違いによるものであり、大きな変更はない では何文字変更されたのか? JIS X 0208:1997*2 の調査によれば、

    83JISの字形について、ここまでのまとめ - しろもじメモランダム
  • Adobe-Japan1とInDesignの二重引用符 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    似たようなグリフが数多く入っているAdobe-Japan1のなかでも、二重引用符の仲間はかなり多く、InDesignの字形パネルなどを見ただけでは、その全容を把握するのが難しい。たとえば下図では26のグリフが表示されている。これだけでもややこしいが、実際はもっと多い。図に用いたフォントはリュウミンPr6(以下同)。 そこで下図では、二重引用符用のすべてのグリフを、体系的に整理しようと試みた。まず、起こしと受けでグリフが異なるグループ(上)と共通のグループ(下)に大別し、次にプロポーショナル、イタリック、全角、半角に分類した。黄色地は横組み(地の幅はグリフの幅を表す)、それ以外は縦組み用のグリフ。 グレー地の縦組み用グリフは、全グリフを網羅するために入れておいたが、これらは一部の処理系が必要とする縦組み用の回転済みグリフであり、ユーザは通常意識する必要がない(このエントリでも、以後無視する)

    Adobe-Japan1とInDesignの二重引用符 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ