タグ

文字コードに関するtonybinのブックマーク (20)

  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • 豆腐のいろいろ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    欠字を意味するいわゆる「豆腐」の表示には、フォントのGID=0に割り当てられているグリフが用いられる*1。 こんなかんじ。まあ、XP以前のMSフォントが表示するような「・」は「豆腐」とは呼ばないだろうけど。 *1:このエントリの最初のバージョンには「ヒラギノなどのAdobe-Japan1フォントではGID=0にグリフが割り当てられていないので、OS X上のInDesignでよく見かける豆腐は、フォールバックで表示されるAquaKanaのGID=0だと思う」と書きましたが、それは勘違いでした。Adobe-Japan1フォントも豆腐(nofdef)グリフを持っています。@monokanoさん、ご指摘ありがとうございます!

    豆腐のいろいろ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • なんたら統一文字の面積比の正確な図 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    戸籍統一文字、住基ネット統一文字、登記統一文字に含まれる漢字の数について、面積比が正確になるように図を描いてみた*1。 法務省が戸籍のオンライン手続きのために整理した文字集合が、戸籍統一文字。この戸籍統一文字を拡張した文字集合が登記統一文字であり、拡張部分を登記固有文字と呼ぶ。図にすると、こんなかんじ。 総務省の住民基台帳ネットワーク統一文字(住基ネット統一文字)には、法務省の戸籍統一文字・登記統一文字との互換性はない。図にすると、こんなかんじ。 この図に、JIS X 0208とJIS X 0213も入れてみる。住基ネット統一文字は基的にJIS X 0213ベースだが、「JIS X 0213に含まれていて戸籍統一文字に含まれていない漢字」は、けっこうある。 IPAの文字情報基盤整備事業が対象としているのは、オレンジ色の枠で囲んだ部分。登記固有文字がんばれ。 *1:使っている数字は、『汎

    なんたら統一文字の面積比の正確な図 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 電書時代の文字コードを考える(ための資料)

    自家製資料いろいろ 文字コード体系(サマリ) JIS文字コード表 JIS X 0213全漢字一覧(1-4水準 10050文字) UTF文字コード表 部首別漢字コード表 Adobe-Japan1のJIS外Unicodeマッピング文字一覧 文字テストEPUB Adobe-Japan1 IVS異体字一覧 Source Han Sansフォント特設ページ 漢字これくしょん 康熙字典EPUB版 Google Notoフォントグリフ一覧(CJK以外) macOS Sierra で最初から入ってる日フォント一覧 Unicode変体仮名フォント **new** 実験ツール 文字コードチェッカー 青空UTF IVS異体字メーカー 顔文字デコーダ Unicodeデコーダ (文字列からUnicodeコードポイントを表示) Unicodeマップ (全Unicodeのマップ。表示できるグリフはフォントに依存しま

  • 俺のMS明朝がこんなに可愛いわけがない - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    この前、「VistaのMS明朝が200字以上も漢字の字形を変更してるのは何なの?」っていう話が出たので、今回はそのあたりを見てみようか。 JIS X 0213:2004が変更した168字以外にも、かなりの数の漢字をいじってるってことですよね。 うん。Vistaっていうと、表外漢字字体表(に合わせて例示字形を変更したJIS X 0213:2004)対応っていうイメージなのかなあ。 違うんですか? それも間違いじゃないんだけど、「補助漢字からJIS X 0213へのシフト」みたいな側面も重要だよね。 補助漢字に加えてJIS X 0213もサポートしましたってだけじゃないんですか? JIS X 0213にシフトしてるんですか? たとえば、「補助漢字とJIS X 0213の両方に入っていて、例示字体は違う字」を見ると、VistaのMS明朝では、JIS X 0213側のグリフに変更してるぞ(下図)。

    俺のMS明朝がこんなに可愛いわけがない - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • IVS本へのツッコミ・まとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)の非公式正誤表のようなもの*1。第1章と第2章はWindows 8の話なので、見ていない箇所もある。間違いの量に興味がある方は、最初から読まずに、第4章(時系列的にはこれが最初のエントリ)あたりからどうぞ。 IVSへのツッコミ 第2章までへのツッコミ 第2章番外編「先生怒らないからリュウミンは手を挙げなさい」 第3章へのツッコミ 第4章へのツッコミ 第5章へのツッコミ 第5章番外編「この「邉」を作ったのは誰だぁ!!」 巻末付録の文字コード表へのツッコミ 関連するかもしれないエントリ セミナーでMicrosoftの人に質問するためのアンチョコ IVSアドインをインストールしてみたよ *1:さまざまな人からの情報をベースにしています。個々にお名前を挙げることはしませんが、皆さんありがとうございます!

    IVS本へのツッコミ・まとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • セミナーでMicrosoftの人に質問するためのアンチョコ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Windows 8のIVSサポートについて、セミナーでMicrosoftの人に質問するための想定問答集(PDF)をtwitterで公開しつつ更新中(http://dl.dropbox.com/u/50939295/NAOI/MS_IVS_Q.pdf)。 Microsoftの人になりきって大いに語っているが、内容は「わたしの想像」に過ぎないので、あしからず。あと、あくまでネタなので、会場で実際にこういう質問が出るって期待しないでね!

    セミナーでMicrosoftの人に質問するためのアンチョコ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 【第301回】『文字コード【超】研究』の電子書籍が出ました : イジハピ!

    2013年03月11日06:00 【第301回】『文字コード【超】研究』の電子書籍が出ました カテゴリ文字コード【プチ】研究 query1000 Comment(4)Trackback(0) ★補足2013-08-03/現在Kindle版、Kobo版はお買い求めになれません。電子書籍版をお求めになる場合はよろしければ是非ラトルズネットをお探しください。経緯はコメント欄をご覧ください。ご迷惑をお掛けします。 宣伝でスミマセン。 拙著『文字コード【超】研究』の電子書籍が出た。 <Kindle版> <楽天Kobo版> 文字コード超研究 改訂第2版-【電子ブック版】 価格:2,560円(税込、送料込) <ラトルズネット版>(販売予定) https://www.rutles.net/ ブログは、睡眠時無呼吸症候群や、ユニクロのバッグ、マイルスの音楽に興味を持って来ていただいた人もいるので、どんな

    【第301回】『文字コード【超】研究』の電子書籍が出ました : イジハピ!
  • 常用漢字は「外字」なのか | yasuokaの日記 | スラド

    榎並利博の『電子行政における外字問題の解決に向けて』(富士通総研経済研究所研究レポート, No.400, 2013年2月)を読んでほしい、とアチコチから連絡をいただいた。読んでみたのだが、2010年の『常用漢字表』改定にまつわる議論を全くフォローしておらず、そのために、正直かなり頓珍漢な内容となっている。それを端的に示しているのが、【追補2】の以下の文章だろう(p.41)。 時代に即して合理的に物事を考え、外字問題を解決していくのは、来国語審議会の役割ではないだろうか。国語審議会の存在意義が問われていると言っても良いだろう。 存在意義も何も、国語審議会は2000年12月に、『表外漢字字体表』の答申をもって解散した。いまさら存在意義とか言われても、読者は困惑するばかりだろう。こういう調子なので、文化審議会国語分科会が答申した『改定常用漢字表』も全く理解しておらず、その結果、以下のようなわけ

  • yasuokaの日記 | スラド

    2021年12月23日の日記の読者から、NDL古典籍OCR用RoBERTa-small ver.2という単文字日語モデルをお教えいただいた。以前、私(安岡孝一)が作ったroberta-small-japanese-aozora-charを再トレーニングして、TrOCRのデコーダーに使っているらしい。とりあえず、当該モデルをGoogle Colaboratoryで動かしてみよう。 !pip install transformers !test -f model-ver2.zip || curl -LO https://lab.ndl.go.jp/dataset/ndlkotensekiocr/trocr/model-ver2.zip !test -d model-ver2 || unzip model-ver2.zip from transformers import pipeline f

  • 文字コードチェッカー

    テキスト,xml,htmlファイルを選択してください(複数選択可能)。文字コードはUTF-8のみ有効です アップロードされたテキストの使用文字を集計して文字コードを表示します。CSVでダウンロードもできます。 使用文字の範囲や意図しない文字が含まれていないか等のチェックにご利用ください。 ※サーバに送信されたファイルはその場で破棄されます。集計情報はログとして保存されます。 以下表示サンプル

  • IVD/IVSとは | 文字情報基盤整備事業

    IVS(Ideographic Variation Sequence/Selector)は、文字符号としては同一視される漢字の、細かな字形の差異を特別に使い分けるための仕組みです。IVSは文字符号の国際規格であるISO/IEC 10646(2008年版以降)に規定されています。また、IVSと、それに対応する字形の一覧は、UnicodeコンソーシアムからIVD(Ideographic Variation Database)として公開されており、ISO/IEC 10646から正規の規格として参照されています。 文字符号(文字コード)を定める日工業規格のJIS X 0213(以下、JIS)やISO/IEC 10646 Universal Coded Character Set(以下、UCS)などでは、複数の字形に対して一つの共通な符号(コード)を与える場合があります(「同一の符号位置に複数の字

  • ivs

    IVSとは? IVSは何故必要か? 今まで「外字」を使って表示していた異体字をIVSを使って表示できます。 ※IVS(Ideographic Variation Sequence):「基礎知識」で解説します。 例えば、「つじ くに男」というお名前の場合、名字と名前の文字の違いの組み合わせだけで8種類の違いがでてきます。 どの組み合わせかの区別を、今までは、「外字」を使って区別していました。 しかし、IVSを導入すれば、プレーンテキスト文章でも区別ができます。 IVS文字 表示デモ動画 MacintoshおよびWindows環境でIVS文字の表示確認を行っています。 ※動画を再生するには、videoタグをサポートしたブラウザが必要です。 外字と異体字について 外字とは 文字コード規格表に含まれない文字のことであり、ユーザーが定義したユーザー定義文字やメーカーによって定義された機種依存文字、ベ

    ivs
  • 日本の文字とUnicode 第1回 | 大修館書店 WEB国語教室

    現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日語に特化して作られたわけではないので、日の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、最初はASCII・Latin1とUnicodeの関係です。 Unicodeの最初の128文字(U+0000~U+007F、コード表参照)には、ASCIIという文字コードがそのまま収録されています。Unicodeは元々アメリカ生まれなので、アメリカでの標準的な文字コードであるASCII (American Standard Code for Information Inte

  • SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    下図は、SoftBank iPhoneのMailが用いるShift_JISのIBM拡張文字領域*1。どうだ、驚いたろう。 SoftBank iPhoneのMailは、charset=Shift_JISをよく使う。髙村薫の「髙」や宮﨑あおいの「﨑」などのWindows外字もShift_JISで送るし、絵文字もShift_JISで送る。しかし、WindowsのIBM拡張文字領域とSoftBankの絵文字領域は、もともと衝突しており、共存できない。なので、SoftBank iPhoneのShift_JISでは、IBM拡張文字のうち下図ピンク部分が使えない。 だったらその分は、NEC選定IBM拡張文字のほうを使えばいいじゃないですか、どうせダブってるんだから(下図)。というのが、大ざっぱに言えば、SoftBank iPhoneのMailが用いるShift_JISである。 その外字領域をまとめると、

    SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • iPhoneの波ダッシュと全角チルダ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    iPhoneで「〜」を入力したいとき、「から」と打って変換すると、(Mac風に)U+301C(波ダッシュ)になる。 が、キーボードの「ー」や「-」をタップしてその仲間から「〜」を選ぶと、(Windows風に)U+FF5E(全角チルダ)になる。 多くの場合、どちらを使っても特に問題はないのだが、条件によっては、これが原因となって文字化けしたりする*1。たとえば、SoftBank iPhoneからU+FF5E(全角チルダ)のほうを使って「やほ〜」というメッセージを送信すると、charset=Shift_JISになる(au iPhoneならcharset=CP932)。この時点ですでにちょっと珍しい動作なのだけれど、しかし、たいていのメーラーはこれを表示できると思う。もちろんiPhone Mailなら表示できる。 次に、この「やほ〜」というメッセージに「ども〜」というコメントを付けて転送する。今

    iPhoneの波ダッシュと全角チルダ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • JIS X 0208 と JIS X 0213 が改正されていた件 - しろもじメモランダム

    昨年12月に小林さんの講演を聞いたとき、JIS X 0213 が近々改正されるというようなことをおっしゃっていた。そんなことはほとんど忘れていたのだが、 584 デフォルトの名無しさん 2012/03/11(日) 13:26:15.37 そういや結局0213って改正するの? 常用漢字の関係で 588 デフォルトの名無しさん 2012/03/11(日) 16:02:37.18 JISCのサイト言ったらいつのまにか改正されててワロタ 誰も気づかなかったのか… 文字コード総合スレ part7 な、なんだってー!(AAry JISCのサイトで調べてみると、たしかに2012年2月20日付で JIS X 0208 と JIS X 0213 が改正され、JIS X 0208:2012 と JIS X 0213:2012 になっている。それぞれ第5次規格、第3次規格にあたる。どちらも追補の形で出されており

    JIS X 0208 と JIS X 0213 が改正されていた件 - しろもじメモランダム
  • yanok.net

    サイト管理上の都合により,一時的に公開を停止しています。 全国書店で発売中の,拙著『[改訂新版] プログラマのための文字コード技術入門』(技術評論社刊,2019年)をお楽しみください。電子書籍版もあります。 販売サイト: 技術評論社 Amazon.co.jp 紀伊国屋書店 honto e-hon [NEW!] 日漢字学会(編)『漢字文化事典』丸善出版(2023年11月末発売予定)の,「漢字とコンピュータ」の章の一項目を執筆しました! 販売サイト: Amazon.co.jp 紀伊国屋書店 honto 執筆依頼等のご連絡は下記までお願いします: yano〓moon.email.ne.jp (〓をアットマークに置換)

  • 「●」が小さく見えることがあるのはどうして? - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    (ホー先生)Macの画面で「●▲■」の「●」と「■」だけが小さく見えることがあるのはなぜじゃ*1。 「●」と「■」が欧文フォントで表示されているからだよ。たとえばMacのFinderでは、ファイル名は「Lucida Grande優先」で表示される。Lucida Grandeは「●(U+25CF)」や「■(U+25A0)」のグリフを持っているけれど、「▲(U+25B2)」のグリフを持っていない。だから「▲」はヒラギノで表示されて、「●」と「■」だけが小さく見えるんだ。同じ理由で起きる現象としては、三点リーダの位置が下にズレたりすることも、よくあるよね。 Finder以外でもよくあるんじゃが。 Appleのソフトは世界共通の仕様なので、デフォルトは欧文フォントだよ(下図)。 日フォントを指定すれば、この問題は避けられるのか。 うん。Finderでは基的にフォントの変更はできないけどね。そ

    「●」が小さく見えることがあるのはどうして? - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • いろんな日本語EUCについてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    語EUC(EUC-JP)にはいろいろあって頭がこんがらがってきたので、サルにもわかるように(つまり、自分があとから見て理解できるように)まとめてみた*1。まず、EUC-JPにはどんな種類があるのだろうということで、わたしの環境で実装例を確認できるものをピックアップしてみた。下図のうちeucJP-openとIANAのEUC-JPについては身近な実装例を思いつかなかったが、これを外すわけにはいかないだろうと思って入れておいた。 各EUC-JPのレパートリをまとめたのが、下図。eucJP-openには上図に示したようなバリエーションがあるが、レパートリは共通。「JIS X 0208の国際基準版・漢字用8ビット符号 + JIS X 0201片仮名」については、これを一言で表現できる呼称を思いつかないので、以下の図では仮に「TextEdit」と表記する。 下図は、各EUC-JPのレパートリと符号

    いろんな日本語EUCについてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 1