タグ

unicodeに関するj0hnのブックマーク (32)

  • VistaでUnicode以外の選択肢はなかったのか?──京大の安岡助教授が語る

    「『JIS X 0213』の基的な考えは,必要な漢字を使いたくても使えなくて困っている人たちを助けることだった」。こう語るのは,京都大学人文科学研究所附属漢字情報研究センター助教授の安岡孝一氏。1997年以来JISの委員としてJIS規格の文字コード(「JIS X 0213」や「JIS X 0213:2004」など)の策定にかかわってきた安岡氏に,最近の文字コードの変遷や,Windows VistaにおけるJIS X 0213対応に関する見解を聞いた。 ──JIS X 0213の概要や,それが2004年に改訂された経緯などを教えてほしい。 安岡氏:過去に使われていた文字集合「JIS X 0208」や「JIS X 0212」には,日の地名で使われている文字が抜けているなど,重要な文字の不足がありました。ただしこの問題は,そこに住む地元の人は困っていても,日全体で見るとほとんどの人が困って

    VistaでUnicode以外の選択肢はなかったのか?──京大の安岡助教授が語る
    j0hn
    j0hn 2006/12/26
  • Vistaで化ける字,化けない字(続報)

    前報で述べた通り,マイクロソフトのWindows Vistaでは,文字コードにUnicodeを使いながら,Unicodeとは異なる文字コード規格のJIS X 0213をサポートする,という方式を取っている。というのも,Windows 98日語版以降ずっとサポートしてきたCP932(名はWindows Codepage 932,いわゆるMS 漢字コード)やJIS X 0212を捨てるわけにはいかないので,CP932もJIS X 0212もJIS X 0213もみんなまとめてUnicodeで扱う,というやり方を取らざるをえないのである。 前報では,JIS X 0213の第一水準~第三水準漢字7614字について,Vistaで新たに採用された日フォントセットであるメイリオとXP以前のMSゴシックを見比べ,7614字のうち325字*が,VistaとXP以前との間で文字化けする(ここでは来表

    Vistaで化ける字,化けない字(続報)
  • Unicodeは文字集合か符号化方式か : 404 Blog Not Found

    2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か 以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。 文字コード規格の基礎:ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合, 文字の集合 エンコード方法 という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが,ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。 これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。 まずUnic

    Unicodeは文字集合か符号化方式か : 404 Blog Not Found
    j0hn
    j0hn 2006/11/24
  • 革命の日々! IEがEUCのJIS X 212をサポートしていないのは規格違反なのか

    パソコンを整理していたら、昔書きかけて途中で放置していた記事のカケラが出てきた。 もったいないので、うpしてみる。 ただ、お蔵入りしていたあけあって毒入りです。うわはははh ヽ(;´Д`)ノ ----------------------- 前回、「firefox EUCが最低」という記事において、ちょっとタイトルが下品だったこともあり、 各方面からお叱りのお言葉を頂いた。 深く反省したい。 ところで、ネットでいくつかご意見を拾ってみると、どうもIEがJIS X 212(補助漢字)を サポートしていないのが規格違反、Firefoxを責めるのは筋違い。という意見を持つ方が結構いらっしゃるみたい。 IEがEUC-JPのWebページの表示・送受信にCP51932というEUC-JPとは似て非なる文字コードを使っている事はたしかで、 そこに弁解の余地はないのだが、昔はみんなJIS X 212なんか使わ

  • JavaScript++かも日記 - 1997年からの

    Testnetがアップデートされたのは知ってたけれど、libra-authのデモも動かなくなったのでちょっと調…

  • イマドキの機種依存文字事情

    Webデザインや配色に役立つ(かもしれない)テクニック、便利なツールを紹介しています。 /*無駄にエロいのは仕様です*/ 01 About 02 Blog 03 Color 04 Design 05 Love 06 etc Mac と暮らし始めて1ヶ月が過ぎ、これといったトラブルはまだないのですが、これまでわからなかったマイノリティの気持ちが少しずつわかるようになってきました。 先日いただいたコメントが文字化けしていたので、いろいろ調べていたら、三重大学教育学部の奥村教授が書かれた エンコーディング (XHTMLCSS 内)というページに詳しい説明がありました。 どうやら Mac OS X + Firefox のフォント設定がデフォルトのヒラギノだと文字化けするようです。リンク先の説明通り Osaka に変えた瞬間、丸で囲んだ数字もちゃんと表示されるようになりました。 以前麦さんの記事を

    イマドキの機種依存文字事情
  • 「者」の点はいつ消えたのだろう: 極東ブログ

    書棚の奥のを取ろうとしてぼろっと「日の漢字・中国の漢字」(参照)が落ちてきた。戻す前にぱらとめくったが運の尽き。そういえば、と少し考え込んでしまった。「者」という漢字について。 現在の漢和字典は、字解のあとに熟語を掲げて解説するとき、その字が語頭にある語だけ並べる。このやりかたで行くと、例えば「者」という字のように、それが語頭に立つ熟語例を見ないものについては、説明が一字の説明だけに終わることになる。その結果、この字の説明は、とかくむずかしく、中国語や漢文訓読によほど通じた人でなければ理解がむずかしいものになる。 というわけで、あるべき説明の試みが続く。一読、なるほどねとも思うし、これは違うんでないのとも思う。いずれにせよ、こういう解説はスポラディックにやってもなとは思う。 gooの辞書で「者」を検索すると、わけわかんないにはなる。 しゃ 【者】 〔「其者(それしや)」の略〕その道の者

    j0hn
    j0hn 2006/07/24
  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

    j0hn
    j0hn 2006/06/28
  • FirefoxのEUCの独自拡張のセンスが最低な件について

    前回の記事について、説明が不足していたようで、404 Blog Not Found様からmultipart/form-data を忘れている とお叱りを頂いてしまいました。 えっと、誤解です。 multipart/form-dataを使っても状況はまったく変わらないことが分かったので説明を省略しただけです。 誤解をとくために前回の調査結果を簡単にまとめさせてください。 ・Webの世界でEUCといったらCP51932がデファクトスタンダードである ・これは来のEUCから補助漢字をなくして、かわりにWindows機種依存文字を 追加したものである。 ・しかし、FirefoxだけはCP51932+補助漢字という独自拡張EUCを採用している。 ・これはURL Encoding の%エスケープを解いたあとのデータが補助漢字に ついて生EUCとするか、数値文字参照とするか、という違いとして現れてくる

  • [を] UTF-8 の文字にマッチする正規表現

    UTF-8 の文字にマッチする正規表現 2006-03-09-1 [Programming] UTF-8の文字にマッチする正規表現の素直版。 レガシーなのに対応するとき用にメモ。 [\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7] [\x80-\xBF]{3}|[\xF8-\xFB][\x80-\xBF]{4}|[\xFC-\xFD][\x80-\xBF]{5} 1 2 3 4 5 60xxxxxxx 110xxxxx10xxxxxx 1110xxxx10xxxxxx10xxxxxx 11110xxx10xxxxxx10xxxxxx10xxxxxx 111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx 1111110x10xxxxxx10xxxxxx10xxxxx

    j0hn
    j0hn 2006/03/11
    utf-8の文字化け検出に使えるかな
  • Unicodeチャート・インデックス

    unicodeのコードチャート、あるいはコード一覧表です。文字は図形でなくUTF-8コードで表現しているので表示はブラウザに依存します。文字ごとにSJISコードがあるかどうかで色分けしています。

  • s-ueno.com

    s-ueno.com 2024 著作権. 不許複製 プライバシーポリシー