これ、Unicodeのコードチャートに載ってる文字なんだけど、何かわかる?イースター島のモアイさんですね。いや、正解は渋谷のモヤイ像なんだけどね。そりゃまあ渋谷にもありますけど……。Unicode Standardには、ちゃんとこう書いてあるぞ。イースター島のモア... 続きを読む
ここに2匹のプードルがいるんだけどね。間違い探しですか? ズバリ、左にだけ眉毛がありますね。うん。眉毛があるほうが、iPhoneやLionに入ってる絵文字フォントのプードル。眉毛のないほうが、Unicodeのコードチャートに載ってるプードル。えっ、どういうこと... 続きを読む
もうすぐお正月だし、こんな図を作ってみたんだけどね。十二支ですか? いろんな国の十二支?そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。いちばん左の列が標準的な... 続きを読む
You need to find a specific Unicode Character? With Shapecatcher.com you can search through a database of characters by simply drawing your character into a box. It can find the most similar character shapes for your drawing.Note: Japanese, K... 続きを読む
技術サロゲートペアは大事元ネタ: 文字の情報を調べるためのブックマークレット - IT戦記サロゲートペアには非対応です>< 文字の情報を調べるためのブックマークレット - IT戦記おや、これでは音楽記号も算籌も麻雀牌もドミノ牌も線文字Bもヒエログリフも楔形... 続きを読む
#!/usr/bin/perl use strict; use warnings; use Encode; package Encode::UTF24; use base qw/Encode::Encoding/; __PACKAGE__->Define('UTF-24'); sub perlio_ok { 0 } sub decode { my ( $self, $bytes ) = @_; my $utf8 = ''; for ( my $i = 0 ; $i < lengt... 続きを読む
和文の内部処理を Unicode で行う(従って和文では全ての Unicode 文字をネイティブに扱える)拡張された pLaTeX である upLaTeX、 および PXbase パッケージ中の upLaTeX を支援する機能について紹介する。 欧文 TeX において Unicode の登場以前から、TeX で... 続きを読む
perlPerl で日本語テキストを簡単に字種かたまりに分割できないかな、と思い、perlunicode を読みながらサンプルプログラムを書いてみました。対象テキストは UTF-8。[を] Perl で日本語テキストを字種分割たつをさんは,m// でマッチングさせて分割させてます... 続きを読む
そんなことは、ない。 JavaScriptには\uXXXXがあるんですよ[文系大学的IT系の悲哀] dankogaiさんはあまりJavaScriptのリテラルに詳しくないのかな? \uXXXXを使わないのは、訳がある。 理由は、こちら。 404 Blog Not Found:javascript - encodeURIUnicode()と%... 続きを読む
今はちょっと落ち着いたようですが、Windows VistaといわゆるJIS2004の対応で、いろいろと困った人もあったかも知れません。でも、困った事態になるのは、よく考えるとちょっと変な気がします。なぜなら、Windows はUnicodeに対応しているから世界中の文字を扱... 続きを読む
_ [言語] インド語の「あいうえお」 昔からなぜ「あ、い、う、え、お」という順番なんだろう、と不思議に思ってはいたが、 まさかインドに由来があるとは。 以下はインド方言の一つBrahmi語 インド地方のBrahmi文字の一覧。 ちょっと母音が多いがおおむね「あい... 続きを読む
たしかにこれは普通の奴らの上ですね。 404 Blog Not Found:シフトJISを残すべきか? - matzさんのコメント 新しいUnicode符号化方式 http://nowsmartsoft.or.tv/nws/Japanese/new_utf.htm にはしびれました。本気で実装しているところがすばらしい。 こちらでは... 続きを読む
たとえば「16ビットのコードを2つ組み合わせることで急場をしのいだ」といった書き方は、いかにも行き当たりばったりでサロゲートペアを作ったように見えますが、実際には最初から計画的にサロゲート用のコードはリザーブしてあったわけですよね。 「最初から計... 続きを読む
前報で述べた通り,マイクロソフトのWindows Vistaでは,文字コードにUnicodeを使いながら,Unicodeとは異なる文字コード規格のJIS X 0213をサポートする,という方式を取っている。というのも,Windows 98日本語版以降ずっとサポートしてきたCP932(本名はWind... 続きを読む
11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,... 続きを読む
Encode - 規格のバグまでは直せませんにコメントしながら思ったのだが、JIS X 0208の1区33点「波ダッシュ」をUnicodeに変換する際、U+FF5EのFULLWIDTH TILDEに変換するのは明らかに間違いだ。この件に関して、私が知る限りのことを、ここに記しておこうと思う。... 続きを読む
tarosukeの日記にもコメントしたのだが、YEN SIGN問題の歴史的経緯は、あまり知られていないように思える。そもそも、情報処理学会コード標準化委員会が1965年1月28日に完成した文字コード案では、「¥」は0x24に収録する予定だった。ところが、1966年4月のISO/T... 続きを読む