タグ

unicodeに関するaki77のブックマーク (27)

  • RubyでISO国名コード2文字を絵文字の国旗に変換する(翻訳)|TechRacho by BPS株式会社

    概要 原著者の許諾を得て翻訳・公開いたします。 英語記事: Convert a two character ISO country code to an emoji flag - Andy Croll 原文更新日: 2021/02/01 著者: Andy Croll regional indicator symbolやregional indicator characterは、仮訳の「地域指示記号」で統一しました。 また、一部のサンプルコードについては見やすさのためGistを使っています。 アプリケーションで、国名の参照をISO 3166-1 alpha-2標準の2文字のコードとしてインラインで保存することがよくあります。たとえば「GB」は英国、「US」は米国を表すという具合です。 しかし絵文字でやりたい人たちがいるならば受けて立ちましょう。 def emoji_flag(country_

    RubyでISO国名コード2文字を絵文字の国旗に変換する(翻訳)|TechRacho by BPS株式会社
  • 波ダッシュ、全角チルダ問題まとめ - Qiita

    そもそも、波ダッシュと、全角チルダって? 波ダッシュ 〜 0x8160(Shift_JIS) 0x301C(UTF-8) WAVE DASH(ユニコードポイント : U+301C) 日語の文字 範囲を表す : 大阪 〜 東京 など 省略記号 : 〜 からの 全角チルダ ~ Shift_JIS には無い 0xFF5E(UTF-8) FULLWIDTH TILDE(ユニコードポイント : U+FF5E) いろんな意味がある文字 アルファベットの上につけて、鼻音を表す : ñ 数学記号 (ほぼ等しいの意味) ホームディレクトリを表す記号 : ~/download Unicode 側での波ダッシュ割り当てミス Shift_JISの波ダッシュ を Unicode に割り当てるときに、 波ダッシュの形を間違えて、"下がって上がる" ように表記してしまった ※ unicode 8.0 で修正されました

    波ダッシュ、全角チルダ問題まとめ - Qiita
  • 全角チルダ問題

    参考) 確かめかた (Windowsの場合) • 確かめたい文字をコピーします。 • WordPad を起動し、コピーした文字を貼り付けます。 • 確かめたい文字を一文字選択し、ALT + X を押します。 • コード (UCS-4) が表示されます。 • U+301C が波ダッシュ • U+FF5E が全角チルダ 基礎知識1) チルダとは何か? • こういうやつらしい。 ÃÕÑ •鼻音に関する音をあらわす、ダイアクリティカルマークの一種 • ダイアクリティカルマークってこんなやつら (よくしらない) À Á Â Ä Å Ă Ą Ā http://ja.wikipedia.org/wiki/%E3%83%80%E3%82%A4%E3%82%A2%E3%82%AF%E3%83%AA%E3%83 %86%E3%82%A3%E3%82%AB%E3%83%AB%E3%83%9E%E3%83%BC%

    全角チルダ問題
  • Unicode 7.0の仕様公開 新たに約250の絵文字を追加

    Unicode Consortiumは6月16日、「Unicode 7.0」を公開したと発表した。このバージョンには2834個の新たな記号が追加されており、その中には約250個の「emoji(絵文字)」も含まれる。Unicodeには前バージョンである6.0で1000個以上の絵文字が組み込まれたが、利用できる絵文字の数がさらに増えた。

    Unicode 7.0の仕様公開 新たに約250の絵文字を追加
  • キャリア6社の絵文字がついに統一

  • Unicode6.0の携帯電話の絵文字の一覧 - Wikipedia

    この項目には、一部のコンピュータや閲覧ソフトで表示できない文字(Unicode 6.0の絵文字)が含まれています(詳細)。 Unicode6.0の携帯電話の絵文字の一覧(ユニコード6.0のけいたいでんわのえもじのいちらん)では、2010年制定のUnicode 6.0 で採用された携帯電話の絵文字Emoji)の一覧と、携帯キャリアごとの対応状況について示す。 Unicode 6.1 では、文字コードを絵文字スタイルとして扱うか、テキストスタイルとして扱うかの異体字セレクタが用意された[1]。絵文字スタイルの場合は、U+FE0Fを、テキストスタイルの場合は、U+FE0Eを文字コードの後に記述する。このため、理論上は多くの文字コードに絵文字スタイルを適用することが出来るが、Unicodeでは、これらを絵文字歴史的コードとしている。 各キャリア別の表はiモード絵文字、EZweb絵文字、Soft

  • Unicode 6.0を含めた絵文字変換を実現する « NAVER Engineer's Blog

    こんにちは。検索サービス開発2チームの斎藤です。休日は都内の美術館や博物館を巡り歩いています。 先日は池袋の古代オリエント博物館に行き、ハムラビ法典(のレプリカ)を見てきました。楔形文字はアシの筆を粘土板に押し当てて記述するものですが、ハムラビ法典は閃緑岩の石柱に彫られたそうです。「法典は石柱に彫ってね」と役人に無茶ぶりされて、当時の職人も「用途がちがーう」とか愚痴ったのかなぁ・・・と妄想してしまいました。 さて私の普段の業務ですが、NAVER LINEプロジェクト絵文字やスタンプ関連の開発に携わっています。ちょうど楔形文字の話もしたところですので、このエントリでも絵文字の変換処理について解説させていただきます。 ドコモ/au/ソフトバンクの携帯電話(以下、フィーチャーフォン)で長く使われてきた絵文字も、2010年にUnicodeコンソーシアムによってUnicode 6.0で正式に定

  • Unicode絵文字と各キャリアの絵文字の対応表 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    ケータイ同士の絵文字対応表は各キャリアが公開しているが、Unicode絵文字と各キャリアの絵文字の対応表が見当たらなかったので*1、作ってみた。 以下の図は、「LionのMailから各キャリアのケータイに絵文字*2を送るとどのように表示されるか」を表していると考えて差しつかえない*3。前回のエントリで述べたように、LionのMailからケータイに絵文字を送る場合、相手の環境で表示できないものが1文字でも含まれているとcharset=UTF-8で送信され、すべての絵文字が「・」や「?」になってしまうので、事前にぬかりなくご確認を。 *1:Emoji Symbols: Background Data(http://www.unicode.org/~scherer/emoji4unicode/snapshot/utc.html)はあるのだけれど、絵文字の画像がリンク切れだったりする。 *2:図の

    Unicode絵文字と各キャリアの絵文字の対応表 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • iPhone絵文字についてUnicodeの視点からまとめてみた - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    LionのAppleカラー絵文字を目前にして、その基礎となるであろうiPhone絵文字のことを知っておこうというのが、今回のテーマ。 いまの段階では、iPhone絵文字は主にSMS/MMSなどシフトJISの世界で使われるものだが、Unicodeで表現することもできる。iPhoneでは、文字化けを防ぐために、絵文字キーボードは絵文字が使えるシーン(シフトJISの世界)でしか出てこないようになっている。しかし、たとえばSMS/MMSで絵文字を入力した上でクリップボードにコピーし、Unicodeの世界に連れてくることは可能である。 Unicodeでは、iPhone絵文字は基的に私用領域(PUA)の符号位置で表現される。それに加え、日のケータイ絵文字がUnicodeに収録されたことを受けて、iOSはこちらの(PUAではない)符号位置もサポートしている。おそらくiOS 5では、PUAではない符号

    iPhone絵文字についてUnicodeの視点からまとめてみた - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • hex2bin() 関数を使って Unicode のコードポイントから文字を出力する

    バイト操作による1文字の UTF-8 とUTF-16、UTF-32 の相互変換UTF-8 対応の ord と chrUTF-16 対応の chr、ord 関数UTF-32 対応の chr と ord PHP 5.4 で hex2bin() 関数が追加された。この関数は文字列としての16進法をバイナリデータに変換することができる。この関数はコードポイントから文字を得るために使うことができる。例として UTF-8 の4バイトで BMP 外の「𠀋」(U+2000b)を試してみよう。コードポイントから4バイトの固定長の UTF-32 としてのバイナリデータを作成し、それを mb_convert_encoding 関数を使って UTF-8 に変換すればターミナルに表示できる。 $point = '2000b'; echo mb_convert_encoding(hex2bin(str_repeat

  • PCREはUnicode文字プロパティをサポートするとは限らない - hnwの日記

    (2011/05/19追記)CentOS5のpcreパッケージについて言えば、2010年7月以降Unicode文字プロパティが有効になっているそうです。安心ですね!(via「 CentOS5.5でCakePHP1.3系のInflector::slugを正常動作させる方法 - Lism.in * blog - nekoya (id:studio-m)」) PCREというのは、Perl互換の正規表現ライブラリです。PCREは例えばPHPのpreg系関数で利用されていますし、他の処理系でも多く利用されているかと思います。ところで、PCREの挙動は環境ごとに異なる可能性があることをご存知でしょうか。具体的には、Unicode文字プロパティをサポートする環境としない環境とがあり、同じ正規表現でも挙動が変わることがあります。僕はそんなことを考えた事もなかったので、ビックリしました。 同じ原因で、以前の

    PCREはUnicode文字プロパティをサポートするとは限らない - hnwの日記
  • MODULE.JP - 日本語に絡むUnicodeブロックとスクリプト(正規表現)

    といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離

    aki77
    aki77 2012/10/21
    Unicode ブロック スクリプト
  • Emoji for PHP

    This library allows the handling and conversion of Emoji in PHP. For background, you might want to read this first. You can download a zipfile of the latest code, which contains a helpful readme file. If you want to browse the code, it's in a public GitHub repo. Example <?php include('emoji.php'); # browser sniffing tells us that a docomo phone # submitted this text $clean_text = emoji_docomo_to_u

  • 絵文字バリエーション・シーケンスとは何か - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    たとえば、仕事用のメールの署名に「☎」という文字を入れていたら、iPhoneではそれが絵文字の赤電話として表示されてびっくり。というような経験をしたことがある人は、たぶん少なくないと思う。こういうことが起きるのは、「絵文字じゃない文字」と「絵文字」がUnicodeでは同じ符号位置に包摂されていて、どちらが表示されるかはフォント(の優先順位)次第だからだ。 ケータイ絵文字をUnicodeに収録する際、Appleはすべての絵文字に独立した(通常の文字とは別の)符号位置を与えたかったようだが、それはかなわなかった。そこで次善の策として、「絵文字じゃない文字」と「絵文字」をプレーン・テキストで区別するメカニズムをUnicodeに提案した。それが絵文字バリエーション・シーケンス(EVS)だ*1。EVSはUnicode 6.1に入り、Mountain Lionでサポートされた。下図は、Mountain

    絵文字バリエーション・シーケンスとは何か - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 「これは絵文字ですか?」「はい、Unicode6.0です」 | Geisha Tokyo Engineers' Blog

    スマートフォン時代の絵文字の取り扱い方は? 既存のサービスを持っているところは現状維持が妥当とは思いますが、これから新規にサービスを立ち上げようとする場合はどのようにするのが良いでしょうか? 方法は、 Unicode6.0標準をそのまま使用する Unicode6.0標準の下位16bitを使う のどちらかかと思います。なるべくなら、前者をおすすめします。 理由その1 すべての絵文字を網羅している 3キャリアの絵文字では相互に変換できない絵文字が存在するため、どうしても特定のキャリアで使えない絵文字が出来てしまいます。 Unicode6.0であれば、3キャリアの絵文字 => Unicode6.0への変換はもれなく行うことができます。 またUnicode6.0 => 3キャリアの絵文字へは変換できない場合もありますが、絵文字の名前が定義されているので絵文字の変わりにその名前を表示することも可

  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
  • ハタさんのブログ : PHP でバイナリから文字列を作る

    よく「PHPはバイナリで文字列を持っている」とか言われているので、やってみた。 参考にしたのは、文字コードについて より、 Unicode対応 文字コード表 試しに、上記の表から「あ」の文字列をUTF-8なバイナリから作成してみる // utf8 E38182 echo pack('C*', 0xE3, 0x81, 0x82), PHP_EOL; ==> あ これは、コンソールで使っている端末もUTF-8なので、そのまま出力できた。EUCな端末なら、こんな感じ // utf8 E38182 echo mb_convert_encoding(pack('C*', 0xE3, 0x81, 0x82), 'EUC-JP', 'UTF-8'), PHP_EOL; ==> あ ということで、他の文字エンコードでのバイナリをいくつか作ってみた。(やっていることは、文字列バイナリをmb_convert

  • Unicodeで「漢字」の正規表現 – ものかの

    改訂:2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。 改訂:2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。 正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS(CP932)の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第3・第4水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

    Unicodeで「漢字」の正規表現 – ものかの
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • GitHub - google/emoji4unicode: Automatically exported from code.google.com/p/emoji4unicode

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - google/emoji4unicode: Automatically exported from code.google.com/p/emoji4unicode