[B! 文字コード] Glnのブックマーク

Gln id:Gln

文字コードに関するGlnのブックマーク (9)

絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
メディア関係者向けお問い合わせ先メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
Gln 2008/12/06
unicode

Google

development

文字コード

携帯電話
リンク
グーグル、絵文字を世界共通化へ--オープンソースプロジェクト開始
グーグルは日本の携帯電話の絵文字を、世界に広める存在になりたいようだ。 11月27日にGoogle Japan Blogに投稿されたエントリによると、グーグルは日本の携帯電話の絵文字の全てを、ユニコードの文字として共通符号化する考えだという。絵文字はもともと日本の携帯電話会社が固有のものを使っており、異なる通信会社同士で絵文字を送り合うことはできなかった。現在では各キャリアが協力して、お互い似たような絵文字がある場合には、変換して表示している。グーグルはこれを拡大し、絵文字をユニコードとして標準化することで、どの通信事業者間で送った絵文字も同じように表示される世界を実現したいという。さらに、「検索エンジンで絵文字を探せば、結果が返ってくる」（グーグルユニコードソフトウェアエンジニアのMarkus Scherer氏)ようにもしたいとのことだ。このグーグルの野望を実現するためには、現在
Gln 2008/12/06
携帯電話

Google

unicode

日本語

文字コード
リンク
News - 絵文字標準化 by Google : 404 Blog Not Found
2008年11月30日02:00 カテゴリNewsiTech News - 絵文字標準化 by Google 悲しい知らせだ。 Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ現在、日本の携帯絵文字の全てをユニコードの文字として共通符号化しようという提案が進行しています。そのためには、現在使用されている絵文字のうちどれが既にユニコード符号化されているか、新しく符号化しなければならない絵文字はどれかなどを調査する作業が必要です。この提案を支援する目的で、私たちが提案している絵文字のマッピングや変換表、更に絵文字データからHTMLの表などを作成するのに役立つツールなどを「emoji4unicode 」という名前でオープンソースプロジェクトとして公開します。日本の絵文字が“世界進出”へ　グーグルが標準化提案 (1/2ページ) - MSN産
Gln 2008/12/06
日本語

文字コード

携帯電話

小飼弾
リンク
404 Blog Not Found:perl - Encode 入門
2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改めだまってコードを書けよハゲ入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです！とにかくこの基本方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(
Gln 2008/04/10
encode

小飼弾

programming

文字コード

utf8
リンク
perl, python & ruby - chr() vs. Unicode : 404 Blog Not Found
2006年11月23日22:00 カテゴリLightweight Languages perl, python & ruby - chr() vs. Unicode というわけで、404 Blog Not Found:There's more than one language to cook your probl emsでPython & Ruby Cookbooksを一気読みしたので、気になる点を少しずつ書いて行くことにする。まずは、文字の扱い。文字列でない点に注意。少なくとも、文字列をバイト列と見なして相互変換することは、LLに限らずたいていの言語で出来るようになったのだけど、文字を文字として扱うという点に関しては各言語ともまちまちで、多言語派の私としては結構頭のいたいところ。ここでは、私が一番流暢なPerlを軸に、RubyとPythonではどうなっているのかを調べてみた。数値
Gln 2008/03/09
programming

perl

python

ruby

unicode

文字コード
リンク
シフトJISを捨てられるか? - 記者のつぶやき：ITpro
これまで，Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで，Windows XPのときと文字の形が変わったり，Unicodeでしか扱えない文字があったりするという話題だ。今回は，エンコーディングについて考えてみたい。これまでの記事でも書いてきたが，文字処理とエンコーディングに関する問題は，何もWindows Vistaに始まったわけではない。Windows XPやWindows 2000など，既存のWindowsでも同様だ。例えば，「鴎」の旧字である「シナカモメ」は，Unicodeでしか扱えない文字だが，Windows XP以前のMS-IMEでも入力できる。石鹸の「鹸」の旧字もそうである。これらの文字を扱うには，アプリケーション・ソフトが，文字列をUnicodeで処理しなればならない。シフトJISに変換した瞬間に，文字情報が無くなってしま
Gln 2007/03/12
文字コード

シフトjis

unicode
リンク
Unicodeは文字集合か符号化方式か : 404 Blog Not Found
2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。文字コード規格の基礎：ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合，文字の集合エンコード方法という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが，ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。まずUnic
Gln 2006/11/25
programming

小飼弾

charset

文字コード

encoding

unicode
リンク
文字コード規格の基礎：ITpro
この記事は，日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので，現在とは異なる場合があります。文字コード規格の基礎を手早く理解したい場合などにお役立てください。文字コードは間違いなく情報を交換するための「決まりごと」なので，正確を期すため厳密な仕様が規定されている。だが，その仕様そのものを実装するプログラムを作る場合を除けば，プログラマが仕様の詳細を隅々まで理解している必要はない。六法全書を読んでいなくても問題なく普段の生活ができるようなものだ。ここでは，通常のプログラミングをするうえで必要と思われる範囲のことを，なるべく簡潔に説明したい。「半角カナ」のような呼び名は正確さを欠くものだが，多くの人に伝わりやすいので説明の中でも使っていく。説明を簡略化するため「正確な仕様を知りたいときは規格書そのものを必ず参照してほしい」と書きたいところだ
Gln 2006/11/25
programming

unicode

charset

文字コード
リンク
MySQL 文字化け問題を本気で直す
mysql> status; -------------- mysql Ver 14.7 Distrib 4.1.20, for redhat-linux-gnu (i386) using readline 4.3 Connection id: 36 Current database: staff2006 Current user: maiha@localhost SSL: Not in use Current pager: lv Using outfile: '' Using delimiter: ; Server version: 4.1.20 Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: latin1 Db characterset: latin1 Client char
Gln 2006/10/20
database

MySQL

charset

文字コード

文字化け
リンク
1