タグ

ブックマーク / yanok.net (123)

  • Sony Reader でその辺の PDF や XMDF や EPUB を読む - yanok.net

    最近、Sony Readerを買いました。電子書籍端末です。 Readerを使う上で気になる点については、「Sony Readerが誤解されがちなこと」というページが参考になると思います。説明はそちらに譲ります。 ここでは、Sonyの電子書籍販売サイトReader Store以外から入手した書籍・文書をReaderで読むことに注目して、ちょっと試してみた次第を記します。Reader Storeの品揃えはまだまだですが、それ以外にもいろいろ読み物の入手経路のあることが分かると思います。工夫次第で使いみちが広がりそうです。 文書ファイルをReaderに取り込むには、USBケーブルでPCにつないでやるとマスストレージとして見えるので、それらしいフォルダ(見れば分かる)にファイルをコピーするだけです。私はLinux機でこれをやっています。 Readerは、PDF、XMDF、EPUBの各フォーマット

  • 事の軽重 - yanok.net

    拙著『プログラマのための文字コード技術入門』の執筆の際に意を用いたことのひとつに、社会的な少数派が文字コードの実装によって不利益を被らないようにということがあります。 第3章のJIS X 0213の説明でアイヌ語表記用の片仮名に結構な分量を割いているのもそのひとつです。アイヌ語が我が国の少数民族の言語であるというだけでなく、Unicodeの結合文字の問題によって実装のハードルが高くなっていることを考慮すると、その対応に注意がより必要だと判断できるのです。漫然と実装されていると、アイヌ語がうまく扱えないという場面が多々出てきてしまい得ます。そしてそれは実際に起こっていることです。 少数派の言語だから対応は後回しでいいというのでなく、少数派の言語だからこそ手厚い対応が必要なのです。 実装面からいえば、これは鼻濁音を表す仮名文字「か゚」などと同じ状況です。しかし、どちらの方がより緊急性が高いかと

  • CP932変換表の問題が顕在化する例 - yanok.net

    JIS X 0208のシフトJISとUnicodeとの変換の問題として、CP932 (Windows-31J)の問題はよく知られています。書籍『プログラマのための文字コード技術入門』にも記しました。Windowsに実装されているUnicodeへの変換表が、標準の定義とずれている問題です。 この問題は、使用頻度の高さから、波ダッシュ「〜」(1面1区33点、SJIS 8160)が化け る問題としてよく知られています。 しかし、波ダッシュ以外にも大きな影響を受けている文字(記号)があります。 双柱「‖」1面1区34点 (SJIS 8161)は、垂直線が2並んだ格好をしている記号です。文字名はDOUBLE VERTICAL LINEといいます。Unicodeで対応する符号位置はU+2016です。この記号はCP932変換表の影響を受けています。CP932変換表では、U+2016でなく平行記号 (P

  • Firefoxでルビ - yanok.net

    以前から、Firefoxでルビを表示させるのに、XHTML Ruby Supportというアドオンを使っていました。Firefoxはそのままではルビに対応していないのです。 ただ、アドオンの問題も分かっていました。このアドオンでは、ルビを振られる文字列がCJK統合漢字拡張Bから始まっていると、その漢字が化けてしまうのです。例えば「𣖔木作(ほうのきざく)」という具合にルビを振ると、先頭の「𣖔」が正しく表示されないということです。 この問題は開発者に報告した方がいいなあと思いつつ、なんとなく有耶無耶にしてしまっていました。BMP外の文字を含むときはルビタグを使うのを避けるという変な習慣もついてしまいました。 そうこうするうち、Firefox 4が出ましたが、このアドオンは新しいFirefoxのバージョンに対応していません。その一方で、HTML Rubyというルビのための新しいアドオンが出て

  • 文字の符号化と復号の関心の違い - yanok.net

    2つ前の記事を読んで、文字の符号化と復号への関心のあり方がどう違うのか、疑問に思った方もあるかもしれません。プログラミング系の人から見れば、文字にフォーカスしているという点ではあまり変わりないように見えるだろうからです。しかしここには結構大きな違いがある。 文字の符号化というのは、具体的な字形の違いにかかわらず、「同じ文字」と認定することが必要になります。物事を符号で表すというのは大体そういうことです。例えば、天気を符号で表すとき、個別具体的な空の様子というのは日々刻々異なるものですが、雲量が2以上8以下だったら一律に「晴れ」という符号で表す、といった風に、一種の捨象が行われるわけです。文字を符号化するときも、少しの形の違いは捨象して、同じ文字と認められるものに同一の符号を振ります。 一方、文字を出力する方に興味が向いている人というのは、どんな形に字形を出力するかを気にするものです。このと

  • 文字コードに対する3つの見方 - yanok.net

    ひとくちに文字コードといっても、ときとして、人によってとらえ方が大きく異なることに戸惑うことがあります。例えば、興味の向かう先が、活字や印刷といった方向である人と、プログラミングである人とは、同じ文字コードといっても想起されるイメージや前提条件などに大きな隔たりがあるのではないかと思えます。 以前、このことを「文字コードに対する3つのスタンス」として考察したことがあるのですが、その後あらためて考えたところ、この3つのスタンスは、文字の符号化・処理・復号という3つのフェーズに対応するように思われました。 下図のようなイメージです。 文字コードによって計算機上で文字を処理する場合、こうした、符号化・処理・復号というフェーズを経ることになります。このうちどこに重きを置くかによって、同じ文字コードでも見え方が違ってくるのだと思います。 注意したいのは、どれかひとつのスタンスに偏ると全体が見えなくな

  • シカタという漢字 - yanok.net

    歌舞伎の「近江源氏𨉷講釈」(おうみげんじしかたこうしゃく)の最後から3文字目の「𨉷」という字は、おそらくこの歌舞伎にしか使われない漢字ではないかと思います。JIS X 0213では第3水準、面区点1-92-41、UnicodeではCJK統合漢字拡張B、U+28277にあります。 この漢字は『新聞電子メディアの漢字』(横山詔一、笹原宏之、野崎浩成、エリク・ロング)の頻度調査では、最下位の頻度1ではなく頻度2と、用途の特殊さにしては意外に健闘しています。また、JIS X 0213で第4水準でなく、より頻度が高いとされた第3水準なのも意外な感じがします。 これは私の単なる憶測に過ぎないのですが、筒井康隆『影武者騒動』の影響によって頻度が押し上げられているのではないかと思います。『影武者騒動』は「近江源氏𨉷講釈」を元ネタにした作品です。 この作品によってとりあげられることがきっかけとなって、

  • 温泉旅行に行こう! - yanok.net

  • 名前の公式な表記を片仮名にするのはどうか - yanok.net

    今回の大震災で、被災した人の安否確認のための手書きの名簿をデジタル化しようとして、漢字表記をどのようにコンピュータにうつすかでなかなか難儀していると聞きました。電子化するためのガイドが作られたという風にも聞きます。 確かに、手書きの漢字を電子化するのには、文字や書体についての知識が必要で、一筋縄ではいかなかったりします。 ここで気にしたいのは、人名の漢字表記のコミュニケーションコストです。文字コードの面倒くさい事情や「外字や異体字」の不毛な話をさておくとしても、例えば、キクチさんという人が菊地なのか菊池なのかとか、タロウさんという人が太郎なのか太朗なのかとか、アベさんが阿部なのか安倍なのか安部なのかとか、紛らわしい面倒の種は無数にあります。 そこで、いっそのこと、名前の公式な表記は片仮名を第一にしてしまってはどうかという発想が出てきます。 コイズミ首相の次の総理大臣は安部さんだったか安倍さ

    funaki_naoto
    funaki_naoto 2011/03/28
    私が読んだのは『人名用漢字の戦後史』での鈴木孝夫の發言でだつた。
  • ひっそりと謝意を表します - yanok.net

  • 「日本字」という言い方 - yanok.net

    この前とりあげた『中谷宇吉郎随筆集』に、何箇所か「日字」という言葉が出てきていて、興味深く思われました。この言葉についての説明は特に書かれていませんが、日で使われる文字を指していることは明白です。漢字や仮名をひっくるめてこう呼んでいるようです。 「日字」という言葉は国語辞典にも見えず、一般的な言葉とはいえないでしょう。しかし、言語としての「日語」と区別して文字のことを指すのには好都合な言葉だと思います。 コンピュータを使っていると文字のトラブルを言い表すのに時々「日語が表示できない」のような言い方をすることがあります。こういうとき、当は「日字が表示できない」と言えば、より正確に事態を表現できます。なんとなれば、「Kore wa pen desu.」のようなローマ字だって言語としては「日語」だからです。画面が文字化けしているときに当に問題にしたいのは言語でなく文字です。 「

  • 年末年始に読みたい本〜文字コードを知るために〜 - yanok.net

    まず何はなくとも、『プログラマのための文字コード技術入門』(技術評論社)。まだの方はこの機会に是非。 ......と、これだけで終わるのはいくら何でもあんまりなので、関連するをいくつか挙げてみましょう。 まずは芝野耕司編著『JIS漢字字典』(日規格協会)。 のっけから困ったことに、この貴重な書籍は今現在、品切れらしいのです。Amazonでは中古品が買えます。中古はややお高いですが、JIS漢字を知りたい方は是非。新品が欲しい方は、日規格協会に要望を出すとかになるのでしょうか。 次は、安岡孝一、安岡素子『文字コードの世界』(東京電機大学出版局)。 いかんせん10年前のなので情報が古いことは否めないのですが、日以外の各国の文字コードを紹介したというのはほかにあまり (ほとんど? 全く?)ないので、そういう箇所を見るのにはいいと思います。これも品切れで、中古品になります。安く出ているよ

  • 半月状の記号 - yanok.net

    JIS X 0213の「◑」(1-8-72)や「◐」(1-8-71)が日語のアクセントの表記のために使われる記号であることは規格票の説明から知っていたのですが、具体的にどう使われるものなのかまでは全く分かりませんでした。その使い方を知ったのは、小学館の「句読点、記号・符号活用辞典。」によってでした。またこの辞典にはアクセント以外の用法が用例付きで掲載されているのも興味深いです。全般にこの辞典は用例が豊富なのが面白い。 この記号は、アクセントが拍の途中で上がるまたは下がることを示すのに使うのだそうです。京都の方のアクセントを表すのに必要らしいです。 手がかりとなるキーワードが分かったので、ウェブに用例がないかと検索してみたら、見付かりました。あるページには、こういう記載があります。 アクセントの専門書では、左半分が黒く右半分が白い丸印(◐)を使って表記するのが一般的なのですが、あいにくJI

  • それをIVSと呼ぶのか - yanok.net

    Unicodeの「IVS」というものの普及を目指す協議会が設立されたというニュースが出ていました。例えば、ITmedia Newsの「「書き手と読み手の字体の一致」を保証する「IVS」普及へ、MSやアドビなど協力」などの記事があります。 内容以前に気になったのが、IVS という用語の使い方。Ideographic Variation Sequenceという名のとおり、これはsequenceを表す言葉です。どういうsequenceなのかというと、UnicodeのCJK統合漢字の後ろにU+E0100のような符号位置 (variation selector) を付けたものです。これによって漢字の異体字 (とひとまず呼んでおくが、異体字というより活字のデザイン差程度のものが多い) を示すものです。 つまり例えば 「U+4E08 U+E0100」 のような列のことを来はIVSと呼ぶわけです。 ただ

  • 倶知安の「倶」の字 - yanok.net

    12月2日の朝の北海道の地震は、緊急地震速報が出た割には、最大震度3に終わりました。揺れが小さかったこと自体は良いのですが、これでは緊急地震速報は狼少年になってしまいかねないと心配します。 そんなことを思いながらこの件のニュースをウェブで見ていて驚いたのは、MSN産経ニュースの記事。 各地の震度を報じた中に、「石狩」「江別」など普通の市町村名とともに列挙されてこんな記載があったのです。 震度1=小樽、余市、●(=2004年新規追加人名漢字)知安 小樽と余市は北海道の街ですが、問題はその次。普通なら「倶知安(くっちゃん)」と書くべきところが、「●(=2004年新規追加人名漢字)知安」になってしまっています。 「●(=2004年新規追加人名漢字)」は、JIS第3水準の「俱」(1-14-01)のつもりなのでしょう。MSN産経ニュースとしては倶知安町の1文字目は「倶」でなく「俱」でなければならず、

  • 川崎のアイヌ工芸展を見て文字コードについて考えた - yanok.net

    先週まで川崎市民ミュージアムで開催されていた、「アイヌ 美を求める心」という、アイヌの工芸品の展示を見てきました。 アイヌの衣類や生活用品、工芸品等の、美術的な側面をとりあげた展示です。 いかにもアイヌらしい模様の衣類をはじめ、生活に密着した品物や、儀式のときに使う物、州からもたらされたものを利用した物、など、様々な展示物がありました。 展示品には片仮名書きのアイヌ語で名称が記されています。したがって、この展示はJIS X 0213の必要性が強く認識できる展示でもありました。 この企画展のチラシから一部抜粋した画像を掲げましょう。これだけでも一端が伺えるというものです。 この小さな画像だけでも、異なり字数で10字、総計12文字も、JIS X 0208になくJIS X 0213で追加された文字があります (丸付き数字も数えています)。なお、④のところに小書きの「ㇵ」があるのが目を引きます。

  • 台湾語とコンピュータにかける情熱 - yanok.net

    田村志津枝『初めて台湾語をパソコンに喋らせた男』(現代書館)を読みました。 今日、台湾で国語とされている言語は中国語(北京語)です。それを反映して、台湾旅行のガイドブックには中国語の挨拶や旅のフレーズなどが載っているわけです。 が、地元の人々が日常話す言語としては、台湾語というものがあり、これは北京語ではなく福建省の方の閩南語がベースになっています。何百年も前に福建の方から渡ってきた人々の子孫にとってはこの台湾語が母語であり、中国語はいわば外国語のように覚えるものであるようです。 その台湾語は、文字で書くための決まりがなく、不便をしている。中国語に押されて公用語の地位も得られない台湾語。そんな台湾語を守り伝えるために、台湾人アロンは得意のコンピュータを使って台湾語を学び活用するためのソフトウェアの開発に着手します。 書は、アロンと台湾語のかかわり、コンピュータに夢中になり、困難なアメリカ

  • デンマーク環境相が東京で自転車を語る - yanok.net

    毎日新聞のサイトに、「デンマーク環境相:東京の自転車事情を視察「教育が重要」」という記事が載っていました。興味深い記事です。毎日新聞は自転車の記事をこのところしばしば載せています。 短い文章なのでぜひ読んでほしいと思います。 感想としては、まず、環境大臣自らが自転車で車道を走って視察しているのが偉いと思います。選挙のときだけ庶民イメージをアピールするのにママチャリで歩道を走っている国会議員候補がありますが、ああいうのとは勿論全然違う。「車が近づいても運転手と目を合わせれば(接触しないよう)気をつけてくれたので安全に運転できた」というコメントは、自分で自転車に乗っている人でないと出てこないものです。 また、注目してほしいのがエレマン環境相の次の言葉。 「専用通路の整備が進んだ地域では自転車が2割増え、車が1割減った。排ガスが減るだけでなく、自転車に乗って体を動かすのは健康によく、医療費削減に

  • Unicode 6.0.0 - yanok.net

    Unicode 6.0.0が発表されました。 日の利用者にとって最も影響が大きいのは携帯電話の絵文字の収録でしょうか。『プログラマのための文字コード技術入門』に書いたとおり、多くの絵文字はBMPでなく面01に入っているので、UTF-16ではサロゲート・ペアの、UTF-8では4バイトのUTF-8への対応が必須です。Unicode対応を謳いながらこれらの機構に対応していない時代遅れのプログラムは改善が必要です。 ただ、Unicodeに絵文字が入ったからといって、それを張り切って使うのが当に良いことなのかどうかは、文字コード以前の問題として、考えられるべきではないかと思います。「絵文字」というものの、それは言語表記に用いる文字ではなく、ただの絵にすぎません。文章の中に絵を散りばめるのは、文章力のなさを非言語的なシンボルによる印象で糊塗しようとしているだけではないのかという疑いを消すことが私に

  • JIS X 0208にはトランプの記号がない - yanok.net