タグ

文字コードとTypographyに関するardarimのブックマーク (5)

  • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

    まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

    ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
    ardarim
    ardarim 2023/12/20
    文字コードのこの辺りはかない深いよね…。ブラーフミー系はだいたいルールが同じだけどグリフのバリエーションがすごくて覚えられる気がしない。世界の殆どのローカル文字ルールを全部盛りすると全部は理解できない
  • プログラマーから見たPDFファイル - アンテナハウス PDF資料室

    更新日: 2020年8月14日 このページの目的 プログラマーは、クライアントから提供されたPDFファイルで、その要求を実現させようとしたとき、PDFのどんなところを見ているのでしょうか。このページでは、ちょっと珍しい視点でPDFファイルを解き明かしていきます。 自分でプログラムを書いてPDFファイルからテキストデータを取り出したいという人も、ぜひご一読ください。 はじめに PDFファイルをクリックすると、あたかも紙に印刷したかのように、どんなマシンでも同じような見た目で文章や画像がディスプレイに表示されます。 この単純な事実は、日常的にPDFファイルを利用していると当たり前に感じられるかもしれません。しかし、よくよく考えると驚くべきことです。 いったい、どのような仕組みがあれば、「過去から現在に至るさまざまな種類のコンピューターで見た目を変えずに同一の紙面を再現する」という目的を達成でき

    プログラマーから見たPDFファイル - アンテナハウス PDF資料室
    ardarim
    ardarim 2020/08/14
    「本稿で扱うのは、PDFファイルの中のバイナリデータを解析してみたものの、そこからテキストデータをうまく取り出せず、そういうものかと思って断念した経験があるような方向けの話題です」ニッチ需要ww
  • UTR50(Unicode縦書きの文字の向き仕様)で注意を要する文字 | CSS組版ブログ

    これまで何度かUTR50(Unicode縦書きの文字の向き仕様)を話題にしてきましたが、2013年8月31日に正式版が出て、CSS3 Writing Modes仕様(現在最終草案)でも、このUTR50仕様が縦書きの文字の向きのデフォルトになることが確定しました。 今後はEPUBリーダーなどでの縦書きの文字の向きのデフォルトとして、これが標準になっていくものと思われますが、現在はそれぞれ独自であったりドラフト版のUTR50ベースであったりして、実装によって向きがまちまちです(それを解決しようとしたのがUTR50なのですが)。新しい標準に切り替わるまでのあいだ、電子書籍制作側ではいろいろ注意が必要です。 これについて、「電書魂」の次のブログ記事など参考になるかと思います: InDesignとEPUBの縦書き時の文字の向きの差について/電書魂 また、UTR50とCSS3 Writing Mode

  • ぼくの大好きな符号化文字 - もじのなまえ

    ときどき私的な席で「どんな仕事をしてるんです?」と聞かれます。「フリーライターです」と答えるとたいていは納得してくれますが、なかには「で、どんなものを書いてるんです?」と突っ込んでくる人もおられる。 すると、はたと考え込んでしまいます。もちろん自分がどんなことを書いているかは分かっている。同時に、それがすごく面白いと思っているから原稿に書いているわけです。でも、その面白さを専門外の人にも分かりやすく説明するって、案外むずかしいものです。もっとも、それをすることは自分の足下を見つめ直すことになるのかもしれません。 1989年の印刷文字 ぼくの専門は符号化文字です。文字コードとかフォントとか、符号化文字に関わる全般。このブログでこのところ集中的に取り上げている常用漢字表の改定も、そうした視点から見ています。では、その符号化文字とはなにか? もう20年以上も前、1989年だったと思います。手塚治

    ぼくの大好きな符号化文字 - もじのなまえ
    ardarim
    ardarim 2010/01/12
    良まとめ。惜しむらくは「文字コード」でなく「符号化方式」の方がよかったか。専門用語を使わないという軛であえてこうしたのかな… 「専門外の人にも分かりやすく説明するって、案外むずかしい」あるある!
  • 安岡孝一の日記: 「戦」「禅」「単」「弾」そして「惮」

    『漢字文化と日語の未来』(日語の研究, 第4巻, 第4号 (2008年10月), pp.126-128)を読み返していて、たった4ヶ月ほどの間で(新)常用漢字への追加候補字数が二転三転しているのに、今更ながら驚いた。5月12日の時点では追加候補字数は220字、それが7月15日には188字になって、9月22日には191字になったわけだ。ただし、これらの字数は、あくまで漢字小委員会での審議の話。親委員会の文化審議会国語分科会は、7月31日に188字を承認しただけで、191字への変更は追認していない。 (新)常用漢字の字種すら確定していない状態で、字体の話を書いてもなかなか理解してもらえないのだが、でも、JIS漢字の改正を視野に入れるのなら、そろそろ字体の方針だけでも決めてもらわないと、もう10月だったりするのである。たとえば「惮」(りっしんべんに単)。現時点の常用漢字に「戦」「禅」「単」「

  • 1