iPhoneの文字化けに関しては、信頼できる情報が少ない。よく掲示板などで文字化けについて質問した初心者が「ググレカス」とか罵倒されているのを見かけるが、検索したところで引っかかる情報は怪しいのがほとんどじゃないかよと思う。そんなわけで、iPhoneの文... 続きを読む
下図は、SoftBank iPhoneのMailが用いるShift_JISのIBM拡張文字領域*1。どうだ、驚いたろう。SoftBank iPhoneのMailは、charset=Shift_JISをよく使う。髙村薫の「髙」や宮﨑あおいの「﨑」などのWindows外字もShift_JISで送るし、絵文字もShift_JISで送る。しか... 続きを読む
ここに2匹のプードルがいるんだけどね。間違い探しですか? ズバリ、左にだけ眉毛がありますね。うん。眉毛があるほうが、iPhoneやLionに入ってる絵文字フォントのプードル。眉毛のないほうが、Unicodeのコードチャートに載ってるプードル。えっ、どういうこと... 続きを読む
かつて文字コードを説明するのに符号化文字集合/Coded Character Set (CCS) 、と文字符号化方式/Character Encoding Scheme(CES)に分ける方法が流行しました。しかし、現在ではこの2つでは不十分であるようです。詳細はUTR#17 “Unicode Character Encodin... 続きを読む
You need to find a specific Unicode Character? With Shapecatcher.com you can search through a database of characters by simply drawing your character into a box. It can find the most similar character shapes for your drawing.Note: Japanese, K... 続きを読む
auのiPhoneで絵文字が化ける問題について、まとめておく*1(以下、iPhoneはiOS 5であることが前提)。細かい条件によっていろいろ違いがあるのだけれど、大ざっぱには、下図の赤矢印が化ける。つまり、iPhoneの@ezweb.ne.jpアカウントからiPhoneの@i.softbank.j... 続きを読む
日本語EUC(EUC-JP)にはいろいろあって頭がこんがらがってきたので、サルにもわかるように(つまり、自分があとから見て理解できるように)まとめてみた*1。まず、EUC-JPにはどんな種類があるのだろうということで、わたしの環境で実装例を確認できるものをピ... 続きを読む
今時のブラウザがどれくらいUTF-7をまだサポートしているか調べてみたのでメモ。全てWin32上。IE8レスポンスヘッダでcharset=utf-7と指定したとき、およびコンテンツの先頭(より前)にUTF-7のBOMである +/v8- を挿入しておいた場合にUTF-7となる。でcharset=utf-... 続きを読む
技術サロゲートペアは大事元ネタ: 文字の情報を調べるためのブックマークレット - IT戦記サロゲートペアには非対応です>< 文字の情報を調べるためのブックマークレット - IT戦記おや、これでは音楽記号も算籌も麻雀牌もドミノ牌も線文字Bもヒエログリフも楔形... 続きを読む
The code for this toy is contained in this page, and is available under both the GPL and MIT licenses. View source and help yourself. 続きを読む
#!/usr/bin/perl use strict; use warnings; use Encode; package Encode::UTF24; use base qw/Encode::Encoding/; __PACKAGE__->Define('UTF-24'); sub perlio_ok { 0 } sub decode { my ( $self, $bytes ) = @_; my $utf8 = ''; for ( my $i = 0 ; $i < lengt... 続きを読む
Meadowもうさすがに忘れないだろーとは思っているものの以前もそんな風に思っていてしばらくしたらあやふやになっていたので記憶に定着されることを祈りつつちゃんと書いておく。 基本以下の2つを覚えておけばまず大丈夫。文字化けしてるとき (UTF-8 のファイル... 続きを読む
この日の私の心無い投稿により、関係者の皆様にたいへん不愉快な思いをさせました事、深くお詫びします。 今日のネタは工学の話でも文学の話もない。 今日のネタを私がどのカテゴリに分類したのかを意識して読んで欲しい。 私は、JIS2004日本語文字セットの規格... 続きを読む
今はちょっと落ち着いたようですが、Windows VistaといわゆるJIS2004の対応で、いろいろと困った人もあったかも知れません。でも、困った事態になるのは、よく考えるとちょっと変な気がします。なぜなら、Windows はUnicodeに対応しているから世界中の文字を扱... 続きを読む
はっきり言ってこれはフェアではない。 みかログ: ErlangとPerlの速度比較Perl側は,Encodeが遅い. Encode::from_toがinplaceでコンバートしてしまうために,直前に文字列コピーがあるのも影響しているのかも なぜなら、Encode::from_to()は速度ではなく、安全... 続きを読む
2008年09月(7) 2008年08月(24) 2008年07月(36) 2008年06月(42) 2008年05月(13) 2008年04月(16) 2008年03月(8) 2008年02月(13) 2008年01月(26) 2007年12月(19) 2007年11月(14) 2007年10月(1) 2007年09月(11) 2007年08月(18) 2007年07月(14) 2007年06月(23) 2007... 続きを読む
_ [言語] インド語の「あいうえお」 昔からなぜ「あ、い、う、え、お」という順番なんだろう、と不思議に思ってはいたが、 まさかインドに由来があるとは。 以下はインド方言の一つBrahmi語 インド地方のBrahmi文字の一覧。 ちょっと母音が多いがおおむね「あい... 続きを読む
たしかにこれは普通の奴らの上ですね。 404 Blog Not Found:シフトJISを残すべきか? - matzさんのコメント 新しいUnicode符号化方式 http://nowsmartsoft.or.tv/nws/Japanese/new_utf.htm にはしびれました。本気で実装しているところがすばらしい。 こちらでは... 続きを読む
JIS C 6226が最初に制定されたのは1978年。6802字を収録した漢字コードとして制定され,規格票の例示字体は写研の石井明朝体で印刷された。ところがJIS C 6226は,1983年に改正された際,漢字300字の字体を変更した。この改正で「同じ文字コードでも違う字が表... 続きを読む
たとえば「16ビットのコードを2つ組み合わせることで急場をしのいだ」といった書き方は、いかにも行き当たりばったりでサロゲートペアを作ったように見えますが、実際には最初から計画的にサロゲート用のコードはリザーブしてあったわけですよね。 「最初から計... 続きを読む
前報で述べた通り,マイクロソフトのWindows Vistaでは,文字コードにUnicodeを使いながら,Unicodeとは異なる文字コード規格のJIS X 0213をサポートする,という方式を取っている。というのも,Windows 98日本語版以降ずっとサポートしてきたCP932(本名はWind... 続きを読む
11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,... 続きを読む
Encode - 規格のバグまでは直せませんにコメントしながら思ったのだが、JIS X 0208の1区33点「波ダッシュ」をUnicodeに変換する際、U+FF5EのFULLWIDTH TILDEに変換するのは明らかに間違いだ。この件に関して、私が知る限りのことを、ここに記しておこうと思う。... 続きを読む
清水哲郎の「シフトJIS」って何のためにあるの?(キャリア・ラボIT「文字コードで世界に出る」, 第11回, 2005年11月)を読みながら思ったのだが、「シフトJIS」誕生の過程はあまりに知られていない。特に Windowsの前身にあたるMS-DOS開発時にマイクロソフト社な... 続きを読む
You are about to permanently delete this entry. When you delete an entry, you also delete any comments and trackbacks associated with it. This action cannot be undone. Delete|Cancel 私がその昔、秋葉原少年だった頃(今のアキバ系とちょっと違うと... 続きを読む
[編集] 文字コード変換時の重複文字の影響 文字コード変換を行う際には、この重複文字というのは厄介になる。別の文字コードから、「Windows-31J」に変換する場合に、重複するどちらの文字へと変換するべきかが問題になるのである。 それに関して、WindowsのAPI... 続きを読む
tarosukeの日記にもコメントしたのだが、YEN SIGN問題の歴史的経緯は、あまり知られていないように思える。そもそも、情報処理学会コード標準化委員会が1965年1月28日に完成した文字コード案では、「¥」は0x24に収録する予定だった。ところが、1966年4月のISO/T... 続きを読む
小形克宏の「文字の海、ビットの舟」 ―― 文字コードが私たちに問いかけるもの [Reported by 小形克宏] 第1部 2000JISがやってきた 第1回 2000JISとはなんだ? (2000年1月19日) 第2回 2000JISの原案はなぜ修整されたか? (2000年1月26日)加筆修正 200... 続きを読む