タグ

unicodeに関するtsukkeeのブックマーク (10)

  • yebo blog: Unicode 6.0.0でケータイ絵文字が追加

    2010/10/13 Unicode 6.0.0でケータイ絵文字が追加 Unicode 5.2.0の改定版である「Unicode 6.0.0」が公開されている。Unicode 6.0.0では2088文字が追加されたが、最大の特徴はGoogleAppleから提案されたケータイ絵文字が1000以上追加されたことだ(関連1、関連2)。特定の企業ロゴを除き、携帯電話で利用されている絵文字が対応することになった。絵文字は1F600-1F64F (顔文字)、1F300-1F5FF、1F680–1F6FFにある。日のキャリア間で絵文字をどうするああすると言っていた事が懐かしい :-P 。変換などという姑息な事をせずとも、Unicode 6.0に対応すれば、絵文字PCだろうが携帯だろうが共通で利用できるようになったわけだ。 投稿者 zubora 投稿時間 18:18 ラベル: Mobile, Tec

  • 文字コード変換にWideCharToMultiByteやMultiByteToWideCharなんて使わない!(UsefullCode.net)

    UsefullCode.net Visual Studio 2005/2008/2010やandroid SDK/NDKでの開発者向けに便利なソースコードを提供 This site provide you with useful source codes under 'USEFULLCODE license'. Windowsには文字コード変換用のAPI関数としてWideCharToMultiByteやMultiByteToWideCharがある。それぞれユニコード文字列をSHIFT-JISにしたり、SHIFT-JIS文字列をユニコードにしたりするときに用いるためのAPIだ。 前回までにこれらの関数を用いたユニコード<->SHIFT-JISの相互変換関数のソースコードを紹介した。しかし私自身、今までソフト開発をするときにWideCharToMultiByteやMultiByteToWide

  • 絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット

    前回までを振り返る--Unicodeコンソーシアムの影響力 前回はどこまでお話ししましたっけ。世界中の文字の収録を目的とした文字コード規格、Unicodeは、米国のIT企業を中心に結成されたUnicodeコンソーシアムが制定するデファクト規格に過ぎないこと。しかし公的な国際機関が定めるデジュール規格ISO/IEC 10646と同期することで、WTO/TBT協定にもとづき世界中の国々に普及させられるメリットを得たこと。 また、Unicodeコンソーシアム自体はオープンな組織だけれど、意志決定を行うUTC(Unicode Technical Committee/Unicode技術委員会)で一票を投じる権利を持つのは一握りの団体に限られること。そしてUTCはISO/IEC 10646のアメリカ・ナショナルボディであるL2委員会と合同でしか開催されておらず、同時にL2委員会とUnicodeコンソー

    絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット
  • Windowsで:set encoding=utf-8する方法 - 永遠に未完成

    Vimの'encoding'オプションはVimが内部で扱うエンコーディングを設定する。この値がcp932やsjisなどだと、ユニコード文字が表示できない。今時ユニコード文字の表示なんてメモ帳でもできる。メモ帳に負けていいのか!否! と言うわけで是非とも:set encoding=utf-8で使いたいわけだが、Windowsでこれをやるとシステムメッセージなどが見事に文字化けする*1。で、これを回避する方法*2。 言語ファイルを入手する download : vim onlineから言語ファイル(ftp://ftp.vim.org/pub/vim/extra/vim-7.2-lang.tar.gz)をダウンロードしてくる。 中身からja.poを取り出し、UTF-8に変換する。 ja.sjis.poもあるが、これはダメ。中にダメ文字を回避するバックスラッシュが入ってる。 Vimでやる場合は、j

    Windowsで:set encoding=utf-8する方法 - 永遠に未完成
  • 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ

    メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

    絵文字のユニコード符号化: 符号化提案用のオープンソースデータ
    tsukkee
    tsukkee 2008/11/28
    iPhoneの絵文字との関係が気になる
  • ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに

    UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。また、UnicodeはASCIIだけでなく、Western Europeanもほぼ同時に追い越している。 Unicodeは多くの言語に対応した標準文字コード体系で、発音区別符号などを利用したローマ字なども扱っている。何十年も前に定められたASCIIコードは128文字あるいは256文字(ASCIIで128 文字、拡張ASCIIで256文字)しか表現できず、タイプライターの影響を受けた同文字コードの拡張は苦戦している。 UnicodeがASCIIとWestern Europeanを追い越したのは12月で、双方が追い越された日は10日も違わなかった。 Unicodeの動きについ

    ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに
  • Unicode の文字列をエスケープする JavaScript - bkブログ

    Unicode の文字列をエスケープする JavaScript Unicode の文字列を \uXXXX (UTF-16) と \xXX (UTF-8)、&#DDDD (数値文字参照)、Base64, Quoted-printable、 URL などの形式でエスケープする JavaScript です。

  • ウノウラボ Unoh Labs: Mac OS X上のUnicode

    Firefoxは内部的に変換処理を行うようになっているようです。 問題はSafariとOperaですね。 選択されたファイルのパスからJavaScriptで ファイル名を抜き出してタイトルに設定する部分で、 正しく扱えるような文字コードに変換することにしたいと思います。 基的な流れとしては、UTF-8-MAC特有の「U+3099」(COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK)、 「U+309A」(COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK)がファイル名に含まれている場合は、 その前の文字と結合して濁音・半濁音の文字にしてあげればいいでしょう (ひらがな・カタカナのみの暫定的な対処に過ぎませんが)。 変換用の文字テーブルを用意して、逐一変換していくかたちにしたいと思います。 というわけ

  • Unicodeは文字集合か符号化方式か : 404 Blog Not Found

    2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か 以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。 文字コード規格の基礎:ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合, 文字の集合 エンコード方法 という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが,ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。 これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。 まずUnic

    Unicodeは文字集合か符号化方式か : 404 Blog Not Found
  • galgalgal - (new Hatena).blog()

    Greasemonkey スクリプトで日語の文字列を埋め込む時、私は vim の "ga" というコマンドを使います。これは、例えば「日」という文字上で実行すると以下のようなメッセージを出力してくれるものです: <日> 26085, Hex 65e5, Octal 62745この Hex の値を抜き出して "\u" をくっつけると Unicode エスケープされた文字列の出来上がりです。 ただ、一文字ずつ手作業で書き留めていくのは面倒極まりないので、ちょっと工夫をします。 :redir @aこうすると、表示されるメッセージが "@" の後の名前のレジスタ (名前付き記憶領域) に転送 (redirect) されていきます。 これを利用して、変換したい文字列上を "galgalgal..." と一気に滑らせていくと ("l" はカーソル右移動です) :put aで全部のメッセージを取り出す

    galgalgal - (new Hatena).blog()
    tsukkee
    tsukkee 2008/10/10
    Unicodeを取得する方法
  • 1