■ 携帯絵文字のSJIS拡張とUnicode PRIVATE AREA変換ルールはcp932と基本的に同じ 04:57 きのうucmを眺めていて気づいてしまった衝撃の事実。 そもそも携帯絵文字は shift_jis ではデコードできないから、このモジュールをつくりはじめたわけだけど、携帯絵文字... 続きを読む
NTTデータ ビジネスブレインズ 伊賀敏樹 2007/6/21 本連載は、Java言語やその文法は一通り理解しているが、「プログラマー」としては初心者、という方を対象とします。Javaコアパッケージを掘り下げることにより「プログラマーの常識」を身に付けられるように話... 続きを読む
基本的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるか... 続きを読む
例えばShift-JISを使用したい場合、アプリケーションがあらかじめShift-JISを使用することを宣言しておくことにより、データベースが自動的にキャラクターセットを変換してアプリケーションにデータを渡します。この機能を使うことによって、アプリケーションは... 続きを読む
ref:404 Blog Not Found:perl tips - Encodeを速く使う方法当然の話だけど、対象の文字列が長くなると、Encode::encode も、$e->encode も大差ない。ちょっといじって試してみる。 use strict; use warnings; use Benchmark qw/cmpthese timethese/; use utf8; ... 続きを読む
【記者の眼】 Unicodeは「使える」から「知らずに使う」フェーズへ Windowsにおいて「Unicode」は,長らく「使える」けれども「あまり使われない」存在だった。その状況が「Windows Vista」と「the 2007 Microsoft Office」で変わろうとしている。この2製品に... 続きを読む
Linux Hacks:環境変数によるロケールの管理 (1/2) 各種言語をサポートするためにLinuxがロケールをどのように用いるのかを紹介しよう。ロケールを理解しておくことは、英語しか使わない場合でも役に立つことがある。 [Bill-Poser,japan.linux.com] Linuxは世... 続きを読む
LinuxとWindowsを併用していると、どうしても文字コードの違いが問題になって来る。その代表的な ものとして文字コードがあげられる。WindowsではShift-JISを、LinuxではEUC-JP(FedoraなどではUTF-8)が 使用されている。プレーンテキストファイルであれば、ブラ... 続きを読む
Last update 日本語には、いろんな文字コードがあります。 ややこしすぎるので、嫌です。 文字集合 エンコード + 文字コード 変換表 基礎知識 文字セット、エンコード(符号化方式)、2種類にわけて、この組み合わせで1つの文字コードになります。Unicodeをベー... 続きを読む
わたしは――この命にかえても、“字”という魔術をおさめたい。この世の中の不思議を知りたいんです。…………神様、お願いです、わたしに教えて下さい。“字”という魔術を JISX0213 InfoCenter JIS X 0213:2000 関連データです。ご自由に(利用したり加工し... 続きを読む
主要な OSS (libiconv、glibc、Perl、Ruby、Python、PHP、PostgreSQL、 MySQL、nkf など) の各ソフトウェアで、Microsoft標準キャラクタセットをシフト JIS符号化方式、日本語EUC符号化方式、7ビットJISコード符号化方式の各々 の間で相互変換できるようにする... 続きを読む
関連ジャンル 基礎知識 通信 (4044) 電話 (1283) 電子計算機 (4984) 符号 (216) 文字 (208) 符号 (174) 文字符号 (68) 日本語 (17) 朝鮮語 (1) 支那語・台湾語 (4) ISO-2022系 (21) Unicode系 (15) TRON系 (1) EBCDIC系 (2) エンコーディング技術 (5) 技術・工... 続きを読む
最終更新: 1998.12.20 目次 はじめに 似た文字 旧JISと新JIS ベンダー固有文字 「全角」「半角」 ASCIIとJIS X 0201ローマ文字 おわりに 余談 1. はじめに ISO/IEC 10646とUnicode(以下Unicode)は、いろいろと論議をかもしてきましたが、 すでにいろいろなとこ... 続きを読む
eucJP-ms と CP51932 の違い eucJP-ms と cp51932 は、両方とも、EUC-JP をWindows標準キャラクタセットの文字を扱えるようにしたもので、それぞれ次のような拡張が行われています。 eucJP-ms は、オープン・グループ / 日本ベンダ協議会 が定義したもので、EU... 続きを読む
■[PHP] 最近の mbstring 関係のバグのまとめ 23:48 最近の PHP(PHP 4.3.11 以降) の mbstring には多くのバグが報告、修正されていますが、そろそろ把握しきれなくなってきましたので、まとめてみました。何か間違い等ありましたら指摘していただけると幸いで... 続きを読む
先々週から茶筌を使った形態素解析について書いてきたが、最近MySQL周辺でバージョン4.1のプロダクション・リリースに伴ったちょっとした混乱が生じている様子なので、今回は少し寄り道をして情報を整理しておきたい。 MySQL 4.1では、特に我々日本人にとって影... 続きを読む