タグ

文字に関するkawachoのブックマーク (18)

  • 「絵文字に平等をサポートしてください」人種差別の指摘にゆれるUnicode 

  • サロゲート・ペアのトラブルはいつまで続くか - yanok.net

    先日テレビをなんとなく見ていたら、エンディングのスタッフロールに「𡈽野」という名字が見えて俄然注意を引かれました。 「𡈽」は「土」の異体字で、JIS第3水準漢字、面区点1-15-34にあります。UnicodeではBMPになく、面02、U+2123Dなので、UTF-16ではサロゲート・ペアが必要です。 異体字なので読みや意味は「土」と同じです。読みや意味が同じだったら区別する必要はないだろうという気もしますが、それはまた別の話。テレビでは読みが書いていなかったので推測するしかないのですが、ヒジノかハジノ、あるいはツチノと読むのでしょうか。 そんなことをTwitterでつぶやいたのですが、事件はそのあと起こりました。事件というほど大げさなことでもありませんが。 Twitterには自分の投稿に対するアクションがあるとメールで通知する機能があります。オフにしておこうと思いつつそのままになってい

  • 文字コードを理解するための参考文献 - yanok.net

    文字コードを理解するために有用なを紹介していきます。拙著『プログラマのための文字コード技術入門』を書くために参考にしたも含んでいます。 文字コードを知る 矢野啓介『プログラマのための文字コード技術入門』技術評論社(2010) 拙著です。いきなり宣伝めきますが、各方面から好評をいただいておりますので、よろしくお願いします。文字コードとは何かという話から、文字コードの大まかな歴史、JIS漢字やUnicode等の現代日向けの各種文字コード規格の紹介、インターネットやプログラミングにおける文字コードの説明など、技術者が必要とする知識を広く取り上げています。技術者以外の方にもお読みいただいています。 芝野耕司『増補改訂 JIS漢字字典』日規格協会(2002) 日の文字コードを知る上で必携といえるのがこの字典。JIS X 0213:2000の全文字を収録し、字形例や読み、文字コードの情報、膨

  • Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    もうすぐお正月だし、こんな図を作ってみたんだけどね。 十二支ですか? いろんな国の十二支? そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。 いちばん左の列が標準的な十二支ってことですね。 うん。日だと、12番目のイノシシだけが独自仕様だな。それが標準仕様だとブタ。 カザフスタンでは、来年の干支はカタツムリですか。 よくわからないけど、そうなのかな。 このペルシアのネズミは、どうして小さいんですか? 標準仕様のネズミの絵を縮小したみたいに見えますけど。 それはネズミの種類が違うんだよ。ドブネズミとハツカネズミ。 え? でもこれ、文字なんだから、たとえばゾウでもアリでも同じ大きさに描かれるものですよね。 原則は、そうだね。 じゃあ、どうしてドブネズミを縮小したのがハツカネズミなんですか? まあ、ちょっと

    Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • auのiPhoneはケータイと絵文字のやりとりができない - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    この項追記。2012年1月27日、au iPhoneはケータイ絵文字に対応したので、以下の記述はすでに古い。詳しくは「auとSoftBankのiPhoneにおける絵文字対応を比較する」を参照。 auのiPhoneにおける絵文字の文字化けについては以前にもまとめたことがあるが、化ける理屈を重視して書いたので、わかりにくかったかもしれない。また、docomoやSoftBankのケータイに触れていなかった。そこで今回*1は、ケータイ間での絵文字のやりとりに絞って、理屈抜きのシンプルな図にまとめてみた*2。つまり、auのiPhoneは、ケータイ絵文字を表示することも、送った絵文字をケータイで表示してもらうこともできない。 この問題の解決方法は特にないが、強いて言うなら、Gmailのアカウントを使ってウェブでメールの読み書きをする(要するにパソコンでケータイと絵文字のやりとりをする手段と同じだが)と

    auのiPhoneはケータイと絵文字のやりとりができない - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • JIS X 0213の小書きの仮名 - yanok.net

    JIS X 0213ではJIS X 0208に対して仮名文字も追加されています。それらは、アイヌ語や鼻濁音のためのものだったり、また別な理由で追加されたものもあります。 これに含まれる小書きの仮名を活用すると、日語やアイヌ語以外の言語、例えば韓国語などの発音を仮名で表すのに使うこともできます。 例えば、韓国語の「ハングㇰ」(韓国)、「キㇺチ」(キムチ)、「ピビンパㇷ゚」(ビビンバ)のように、母音を伴わずに子音で終わる閉音節を表すのに、小書きの仮名が使えます。もともとJIS X 0213にこうした小書きの仮名が追加されたのはアイヌ語の閉音節の表記に対応するためですから、こうした韓国語などの表記は来の用途ではないとはいえ、活用の仕方としては同じことだといえます。 ふざけた使い方としては、なんでも小書きの仮名で書いてしまうお遊びもあります。X0208に含まれる「ぁぃぅぇぉっゃゅょ」などの仮名

  • ATOK 用 JIS 第3・第4水準辞書 公開 - yanok.net

    Anthyに続き、ATOK用にも、JIS第3・第4水準の辞書を作成し、このたび公開しました。下記のリンクからどうぞ。 ATOK用JIS第3・第4水準漢字変換辞書 10年にわたって保守・開発されている、SKK用のJIS X 0213対応辞書SKK-JISYO.JIS3_4とSKK-JISYO.JIS2004を元に作成したものです。 これで、ATOKでも、魹ヶ崎 (とどがさき、岩手県宮古市)、𣖔木作 (ほうのきざく、福島県いわき市)、𩸕網代 (きびなごあじろ、長崎県五島列島)、吐噶喇列島といった地名や、三国志の登場人物の龐統や許褚、邢道栄、賈詡、譙周、などなど、書家の米芾 (べいふつ)、褚遂良 (ちょすいりょう) といった人名、火星の意味の熒惑 (けいこく)、世界史の授業で習った璦琿(あいぐん)条約、菩薩の意味の菩提薩埵、美少女を意味する蜾蠃少女(すがるおとめ)、などなど、様々な漢字が変換

  • IVS入力ツールsvivsを公開しました - しろもじメモランダム

    前回のエントリで「試作中」と書いたIVS入力ツールの svivs だが、とりあえずある程度までできあがったので、このへんで一旦公開してみる。バージョン1.0.0。Windows XP でしか動作確認をしていないが、Adobe AIR で動くので一応 Mac でも大丈夫。 IVS(異体字シーケンス)入力ツール svivs - しろもじ作業室 IVS(異体字シーケンス)入力ツール svivs の使い方 - しろもじ作業室 残念ながら、前回のエントリで書いた「動作が思ったよりも重い感じ」はそれほど改善されていない。テキストエリアの処理がもっさりげな感じ。しかもこのテキストエリア、実のところハイライトさせる処理で Splitting a surrogate pair とかいってコケることがある*1。実際のコードではサロゲートペアをちゃんとペアとして扱っている(はず!)にも関わらず。この問題をどうに

    kawacho
    kawacho 2011/11/24
    Adobe AIR なので Mac でも動くはず、とのこと。
  • auのiPhoneで少年がヒゲおじさんに化ける件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    前回のエントリのコメント欄で、「auのiPhoneの『メッセージ』アプリで*1少年がヒゲおじさんに化けた」という事例を教えていただいた*2。さっそく試してみた*3。 上図は化ける文字の例*4。巻き戻せない季節を経て、少年は男に、少女は女に変わる。孤高の狼は、あろうことかペロちゃんに変わっている。 もちろん送信側も受信側もUnicode環境なのだけれど、経路中で一度auのISO-2022-JPに変換されているようだ。auの絵文字にはU+1F466 BOYと直接対応するものがないので、フォールバック・マッピング(下図の赤矢印)により0x7657(「おにいさん」くらいのかんじ?)になる。これだけなら違和感は大きくないが、ここからさらにUnicodeに戻ることにより、少年が2段階成長してしまう。 というわけで、この現象は文字化けというよりはフォールバックであり、おそらくバグではなく仕様なのだろう。

    auのiPhoneで少年がヒゲおじさんに化ける件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • IVSとGSUBはどう違うのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    異体字シーケンス(IVS)の特徴について、OpenTypeフィーチャのグリフ置換(GSUB)と比較しながら考えてみた。重要だと思われる点をメモしたものであり、IVSの体系的な説明ではない。 IVSは文字コードのレベルの枠組みなので、異体字の情報をプレーンテキストで交換できる。この最大の特徴に加え、GSUBよりも新しい分、よりすっきりとした論理的な仕組みになっている*1。 IVSの概念は、下図のようなかんじ。符号位置に包摂される複数のグリフ(集合)のなかから、ある特定のグリフ(集合)をVSによって指定する、というイメージ*2。 上図はUnicodeの視点から描いたものだが、Adobe-Japan1フォントではデフォルトのグリフはcmapで指定されているので、実装としては下図のようなかんじ。IVSでは、原則として基底文字(親字)の包摂範囲を超えたグリフは指定できないので、VSを付けることによっ

    IVSとGSUBはどう違うのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • InDesignにおけるIVSの実装と運用上の問題点 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    前回述べたように、IVSはGSUBよりも新しい分、すっきりと論理的にできている。だから、「漢字の異体字指定に関してはGSUBからIVSに乗り換える」というような思い切った転換を行い、なおかつInDesignなどにおけるIVSの扱いが信頼できるものであるなら、みんなハッピーになれそうだ。 しかし、たぶん現実には、「GSUBはそのまま残って、IVSも使える」ということになるだろう。というか、すでにそうなっている。要するに、もともと複雑な状況が、さらに複雑化したわけだ。加えて、もちろん今後改善されていくとは思うが、InDesignにおけるIVSの扱いには、まだまだ問題が多い。以下、InDesign CS4における実装あるいは運用上の問題。 IVSとGSUBの競合・重複の問題。たとえばInDesign上で、ある文字にGSUBとVSを両方適用したらどうなるのか。詳しくは「InDesign CS4にお

    InDesignにおけるIVSの実装と運用上の問題点 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • サービス終了のお知らせ - NAVER まとめ

    サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

    サービス終了のお知らせ - NAVER まとめ
  • Appleカラー絵文字の「勝ち誇った顔」がニヤけている理由 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Appleカラー絵文字の「勝ち誇った顔」(U+1F624 FACE WITH LOOK OF TRIUMPH)をUnicodeのコード表と比べると、かなり印象が異なる。予備知識なしに両者を見て「同じ字」だと思う人はいないだろう(下図)。 Appleカラー絵文字のうちモノクロのもの(Lionで追加された分)は、ケータイ絵文字のUnicodeへの収録過程におけるGoogleApple提案(いちばん最初の提案)の字形を流用しているようだ。 しかし、「勝ち誇った顔」は、非常にややこしい経緯のあった字で、審議の過程で質的な修正がなされている。この字については、Appleカラー絵文字でもUnicode 6.0の例示を尊重したものを実装して欲しかった。 GoogleApple提案の「勝ち誇った顔」のグリフを修正するべきだった理由は「Unicodeのケータイ絵文字対応表への疑問」(この記事におけるU

    Appleカラー絵文字の「勝ち誇った顔」がニヤけている理由 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Lionにナマハゲと天狗が入っているのはどうして? - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Appleカラー絵文字って何? iPhoneやLionに搭載されている絵文字フォントの名前だよ。Lionをインストールすると、iPhoneのカラー絵文字Macでも使えるようになるんだ。文字ビューアの「絵文字」から入力できるよ。 iPhoneとLionでは、絵文字に違いはあるの? いちばん目立つ違いは、Lionでは文字が増えてることかな。 わあ、どんなのが増えたの? ナマハゲとか天狗とかナルトとか。 これ、モノクロじゃん。 増えてるぶんは、ぜんぶモノクロ。Lionは、Unicodeに収録されたケータイ絵文字のうち、Softbank絵文字以外を、いわば「docomo/au互換絵文字」としてモノクロでサポートしている*1。このモノクロの絵文字は、文字ビューアの「絵文字」には表示されない。Font Bookでレパートリーを表示すると、下のほうに入ってるよ。 Gmailを使えば、以前からMacでも

    Lionにナマハゲと天狗が入っているのはどうして? - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    kawacho
    kawacho 2011/07/26
    ナマハゲや天狗はモノクロ。
  • Appleカラー絵文字(Lion版)のUnicodeマッピング - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    これまで、ケータイ絵文字は「外字」であり、一般の文字とは明確に区別されていた。しかし今後は、ケータイ絵文字がUnicodeの(私用領域ではない)符号位置を用いて表現されるようになってくるだろう。LionのAppleカラー絵文字は、その先駆けである。たとえばU+2665「♥」は、JIS X 0213にも含まれるポピュラーな文字だが、これをAppleカラー絵文字で表示すると、トランプの絵になる(下図)。今までの常識とは異なる世界だ。というわけで、Appleカラー絵文字とUnicodeの関係を把握するためのリストを作成した。以下、リンク先のPDFはUnicodeのチャート。その下の図は、Appleカラー絵文字のマッピングを示す。 C0 Controls and Basic Latin(http://www.unicode.org/charts/PDF/U0000.pdf) C1 Controls

  • さっそくUnicode絵文字をLionで表示してみた - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    「あとはフォントAppleカラー絵文字に変えるだけ」の図をInDesignで作ってLionを待ちかまえていたのだが、実際にやってみると、Adobeアプリではカラーの絵文字は表示されないようだということがわかったので、PDFを貼り込んだりして作り直したのが、以下の図。 各文字の左上に記したのが、Unicode絵文字の符号位置。その下の青字は、iOSが利用している私用領域(PUA)の符号位置。この青字の符号位置が記されている文字が、現状のiOS互換。これらの文字は、LionのAppleカラー絵文字でもカラーで表示できる。 黒字の符号位置は、(Softbank以外も含めた)日のキャリアのケータイ絵文字をソースとするもの。ざっと見たところ、これらの文字のうちiPhone絵文字をソースとしないものは、ほぼ「モノクロの絵文字」としてサポートされているようだ。このうち以下の図で濃いグレーとなっている

    さっそくUnicode絵文字をLionで表示してみた - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog

    著者の小林龍生さんよりご恵贈いただきました。ありがとうございます。 ユニコード戦記 ─文字符号の国際標準化バトル 作者: 小林龍生出版社/メーカー: 東京電機大学出版局発売日: 2011/06/10メディア: 単行購入: 7人 クリック: 466回この商品を含むブログ (20件) を見る 内容も、語り口も、すばらしくおもしろかった、と言いたい。内容の一部は著者人から直接聞いたことがあるものもあるし、すでに読んだことがある原稿の再録もあったりするのだが、それらも含めておもしろかった。 もっとも、文字コード関連の知識を多少なりとも持っていないと、「ISO/IEC JTC1/SC2/WG2/IRG」のようなメダパニ系呪文にやられてしまうかもしれない。逆に文字コードに詳しい人のなかでも、Unicodeの現状に不満を持っている人にとっては、規格制定側からの言い訳にしか読めないかもしれない。私の場

    ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog
  • Emacs23(以降) と 曖昧幅文字(East asian ambiguous) - とりあえず暇だったし何となくはじめたブログ

    Emacs23 以降の Unicode の曖昧幅文字取り扱いについてのメモです。 曖昧幅文字とは 環境によって、幅が1だったり、2だったりする文字のことで、具体的には、「○」とか「×」とか「α」とかそんな文字を指します。 CJK 環境だと、2 と解釈して欲しいけれども、それ以外の環境は、1と解釈して欲しかったりする文字です。 一覧としては、以下の URL のテキストで、A とついているものがそれにあたります。 http://www.unicode.org/Public/UNIDATA/EastAsianWidth.txt Emacs23 での扱い 使っている環境に依存します。具体的には、以下の2つに依存します。 # 23 と書いてありますは、主に 24 で確認しています。やっている事は同じはずです。 環境変数 LC_ALL、LC_CTYPE、LANG に何を設定しているか set-lang

    kawacho
    kawacho 2011/03/29
    曖昧幅文字の幅をEmacsが1と扱うか2と扱うか、ってのと、フォントがどう表示するか。
  • 1