タグ

文字コードとbookに関するworks014のブックマーク (12)

  • 「プログラマのための文字コード技術入門」EPUB版販売開始! - yanok.net

    拙著「プログラマのための文字コード技術入門」の電子書籍版、既に提供済のPDF版に加えて、EPUB版の公開が開始されたようです。 プログラマのための文字コード技術入門 | Gihyo Digital Publishing ... 技術評論社の電子書籍 PDFが先行して販売されていましたが、EPUBはUnicode特有の問題のために時間がかかっていたようです。 書の原稿はJIS X 0213にある文字だけを使っているのですが(EUC-JIS-2004で書いたので当然)、Unicodeで符号化したときにアプリケーションの処理で問題になりそうな点として、サロゲートペアの必要な文字、結合文字の必要な文字、互換漢字、という3つが挙げられます。今回のEPUB (のアプリケーション)では主に結合文字の箇所で問題があったのではないかと思います。そういうところはまさに書が扱っている文字コードの問題です。

  • 文字コードを理解するための参考文献 - yanok.net

    文字コードを理解するために有用なを紹介していきます。拙著『プログラマのための文字コード技術入門』を書くために参考にしたも含んでいます。 文字コードを知る 矢野啓介『プログラマのための文字コード技術入門』技術評論社(2010) 拙著です。いきなり宣伝めきますが、各方面から好評をいただいておりますので、よろしくお願いします。文字コードとは何かという話から、文字コードの大まかな歴史、JIS漢字やUnicode等の現代日向けの各種文字コード規格の紹介、インターネットやプログラミングにおける文字コードの説明など、技術者が必要とする知識を広く取り上げています。技術者以外の方にもお読みいただいています。 芝野耕司『増補改訂 JIS漢字字典』日規格協会(2002) 日の文字コードを知る上で必携といえるのがこの字典。JIS X 0213:2000の全文字を収録し、字形例や読み、文字コードの情報、膨

  • 事の軽重 - yanok.net

    拙著『プログラマのための文字コード技術入門』の執筆の際に意を用いたことのひとつに、社会的な少数派が文字コードの実装によって不利益を被らないようにということがあります。 第3章のJIS X 0213の説明でアイヌ語表記用の片仮名に結構な分量を割いているのもそのひとつです。アイヌ語が我が国の少数民族の言語であるというだけでなく、Unicodeの結合文字の問題によって実装のハードルが高くなっていることを考慮すると、その対応に注意がより必要だと判断できるのです。漫然と実装されていると、アイヌ語がうまく扱えないという場面が多々出てきてしまい得ます。そしてそれは実際に起こっていることです。 少数派の言語だから対応は後回しでいいというのでなく、少数派の言語だからこそ手厚い対応が必要なのです。 実装面からいえば、これは鼻濁音を表す仮名文字「か゚」などと同じ状況です。しかし、どちらの方がより緊急性が高いかと

  • ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog

    著者の小林龍生さんよりご恵贈いただきました。ありがとうございます。 ユニコード戦記 ─文字符号の国際標準化バトル 作者: 小林龍生出版社/メーカー: 東京電機大学出版局発売日: 2011/06/10メディア: 単行購入: 7人 クリック: 466回この商品を含むブログ (20件) を見る 内容も、語り口も、すばらしくおもしろかった、と言いたい。内容の一部は著者人から直接聞いたことがあるものもあるし、すでに読んだことがある原稿の再録もあったりするのだが、それらも含めておもしろかった。 もっとも、文字コード関連の知識を多少なりとも持っていないと、「ISO/IEC JTC1/SC2/WG2/IRG」のようなメダパニ系呪文にやられてしまうかもしれない。逆に文字コードに詳しい人のなかでも、Unicodeの現状に不満を持っている人にとっては、規格制定側からの言い訳にしか読めないかもしれない。私の場

    ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog
  • 文字符号の歴史—欧米と日本編 | 配電盤

    安岡 孝一 (著), 安岡 素子 (著) 出版社: 共立出版 ; ISBN: 4320121023 ; 欧米と日編 巻 (February 2006) これはいいね 文字符号の成立過程やその内容に関しては、伝聞や根拠のない憶測はいっさい避け、あくまで文献によって裏づけのとれる事柄だけを、参考とした文献とともに示した。文献学や科学史研究においては、ごくあたりまえとされていることを、あたりまえにやっただけである。 文字符号についての基礎文献になることは間違いない 残念なのは、記述がJIS X 0213の制定(2000.1.20)までで終わっていること。私自身はJIS X 0213の文字セットをUnicodeで使うのが「現実」的だと考えているからまあいいのだが、特に人名・地名などで異体字にこだわる人もいて、そういう人にとって唯一の手段であろうAdobe-Japan1-5(2002.9.20)あ

    文字符号の歴史—欧米と日本編 | 配電盤
    works014
    works014 2011/03/07
    _CID8489とCID20305
  • DTPの勉強会第3回に行って参りました - DTP

    「DTPの勉強会第3回」に参加してまいりました。 今回は内容が内容だけに少々難解でした。自分で言うのもなんですが普段文字コード変換やDTP関連の開発をやっている私が少々難解と感じたということは、おそらくというかなんというか「そうとう濃い」内容だったのは間違い無いです。今後フォローアップ資料をじっくり咀嚼していけたらなあというのが現在の面持ち。 アプリ開発を生業としているものとして、一番興味深かったのは狩野宏樹さん(株式会社イワタ・TwitterID:kan0u)の「フォントのしくみ」というセッション。フォントフォーマットをごりごりと解説してくれるという素晴らしい内容で、とても興味深く拝聴させていただきました。やばい、自分の納得できるフォント情報表示アプリ作りたくなってくるw 元々私はオペレータから開発者に移行していった人間で、文字コードって言葉も社会人になって初めて意識したと言っていいでし

  • 今読んでいる本 - 『プログラマのための文字コード技術入門』

    最近の文字コードめぐる状況について,まとまったもんが欲しかったので読んでいます。なお,ここでは符号化方式のことを文字コードと呼ぶことにします。 多バイトコード圏(という言い方も今風ではないが)に暮らしている人にとって,文字コードの話は,プログラミングする上で避けて通れない問題だったりするわけですけれど,その割に,日語(をはじめとした東アジア文化圏)の文字コードについて実装の側面からまとめている書籍は,あまりなかったりします。ここでは「実装の側面から」というのが重要。これまで,ちゃんと参照できる実装といったら,『CJKV日中韓越情報処理』くらいしかなかったんじゃないかと思います。しかし,これは高いし重い。 文字コードというと,政治的/文化的にウェットな議論があって,それはそれで議論する意味があるんだとは思います。しかし,こゆもんは,プログラミングする上で実は「どうでもいいこと」だったりす

  • プログラマ向け文字コード本 - kkamegawa's weblog

    屋に置いてあったので、久しぶりの文字コードをぱらぱらと読んでみました。一応知らないことはなかった(はず)ですが、やはり書籍としてまとまっているのはありがたいですね。昔みたいに一つ、もしくは二つ程度のプラットフォームで、限られたところからしかデータが来ないという状況ならまだしも、今やプラットフォームが一つでもネットワークでどういうデータが来るかわかりませんから、エンコーディングがいっぱいある国に生まれてきたことを後悔しつつ、一通りの知識は持っておきたいものです。 UnicodeによるJIS X0213実装入門―情報システムの新たな日語処理環境 (マイクロソフト公式解説書―マイクロソフトITプロフェッショナルシリーズ) 作者: 田丸健三郎出版社/メーカー: 日経BP社発売日: 2008/08/21メディア: 単行購入: 2人 クリック: 54回この商品を含むブログ (12件) を見るW

    プログラマ向け文字コード本 - kkamegawa's weblog
  • 「プログラマのための文字コード技術入門」 - 名もないテクノ手

    DTPの仕事に携わる人は、毎日多くのテキストを扱っているにもかかわらず、文字コードのことは案外無頓着でいたりします。Excelからテキストを書き出しては「バケラッター」と言い、メールにファイルを添付しては「バケラッター」といいつつ、その原因を探ろうとはしません。とても不思議なことです。 文字コードがこんなにも複雑で、プロフェッショナルな人にとっても優しくないという原因はいくつか考えられます。ひとつには、文字コードの混沌の黒歴史があり、さまざまな方式の文字データが存在すること。いくつかの文字集合や符号化方式、エンディアンの違い、フォントによる字形差や文字集合差などが問題をわかりにくくしています。テキストデータは、いまやもっとも判読しにくいフォーマットのひとつかもしれません。ひとつの符号化方式を支持することは、ある種の宗教にさえなっています。こわいこわい。 だから黙って、エディタの自動変換にす

    「プログラマのための文字コード技術入門」 - 名もないテクノ手
  • 文字コードはなぜ複雑になるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    文字コードについて説明しようとする場合、「例外を無視して単純化すると、厳密にはウソになってしまう」という罠に陥りやすい。矢野啓介『プログラマのための文字コード技術入門』は、平易な文章でありながら、そのような落とし穴を慎重に回避することに成功していると思う。 プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ) 作者: 矢野啓介出版社/メーカー: 技術評論社発売日: 2010/02/18メディア: 単行(ソフトカバー)購入: 34人 クリック: 578回この商品を含むブログ (129件) を見る カバー・文デザインはn-yujiさん(遠近法ノート)*1なので、組版に関しても安心。 このには、「文字コードはなぜ複雑になるのか」という節が用意されており、著者は「文字コードを複雑化させる二つの理由」として、「過去の経緯の

    文字コードはなぜ複雑になるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 矢野啓介『プログラマのための文字コード技術入門』拝読 - 日本語練習虫

    矢野啓介『プログラマのための文字コード技術入門』(asin:9784774141640)ばご恵贈いただき、拝読。ありがたうござる。 縁あって原稿段階で読ませていただいてゐたんだども、のカタチになると、また感慨もひとしお。 どんな内容かといふのは、版元の新刊紹介頁にかなり詳しく出てをり、また著者のブログに記されたやうにhyoshiokさんの評もある。 ――ので、己は、書で繰り返し使はれる秀逸な例文について、敢て例文それ自体を引用せずに、ひとことふたこと記す。 周知のやうに、JIS X 0208といふ符号化文字集合は、多様なscriptを含む「多言語化」「国際化」を指向する規格である。そしてJIS X 0213は、0208では不足するといはれる現代日語(およびアイヌ語ならびにギリシア語)を過不足なく書き表せる符号化文字集合として、Unicode/ISO 10646との対応関係が取れない国

    矢野啓介『プログラマのための文字コード技術入門』拝読 - 日本語練習虫
  • 『日本のルールは間違いだらけ』は間違いだらけ | yasuokaの日記 | スラド

    たくきよしみつの『日のルールは間違いだらけ』(講談社現代新書2017、2009年10月)を読みかけたのだが、内容にあまりにも事実誤認が多く、第一章の途中で力尽きた。私(安岡孝一)が力尽きる直前までのガセネタを、以下にざっと並べて晒しておく。 このように、日式ローマ字のルールが最初からかなり曖昧だったため、一度しっかりしたルールを決め直そうという意図で、1937(昭和12)年に、内閣訓令第3号として公布されたのが「訓令式ローマ字」だ。(p.20)

  • 1