[B! unicode] sabroのブックマーク

UTF-8にもいろいろある - ザリガニが見ていた...。

前回からの続き。改行コードの違いを体感してみる - ザリガニが見ていた...。文字エンコードとロケールを体感する - ザリガニが見ていた...。改行コードの違いも知った。文字コードとロケール、ターミナルの言語環境との関係も知った。これで文字にまつわる悩みとはおさらばできると思ったら、まだダメだった...。実験環境 OSX 10.8 Mountain Lion以前((OSX 10.9 Mavericksでは、Mac仕様なNFDのUTF-8を表示しようとするとエラーになってしまったため、10.8以前の環境で実験した。Assertion failed: (width > 0), function conv_c, file /SourceCache/shell_cmds/shell_cmds-175/hexdump/conv.c, line 137. ** ** Abort trap: 6

sabro 2013/11/26

リンク

iOS Emoji

About iOS6での絵文字はこちらです iOS5から利用できるunicode6な絵文字のキャプチャ画像とUnicodeコードポイント,UTF8,UTF16,SoftBank Unicodeでの文字コードの対応表です。 iPadの絵文字キーボードと同じ順番に並んでいます。画像が多いので、GithubPagesでは分割版のhtmlにしています。統合版のhtmlはmasterブランチに入っているので、必要な方はそちらをご利用ください。 JSON配列(ソート済み/UTF16)はこちら Smiley

sabro 2012/02/08

リンク

Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

もうすぐお正月だし、こんな図を作ってみたんだけどね。十二支ですか？　いろんな国の十二支？そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。いちばん左の列が標準的な十二支ってことですね。うん。日本だと、12番目のイノシシだけが独自仕様だな。それが標準仕様だとブタ。カザフスタンでは、来年の干支はカタツムリですか。よくわからないけど、そうなのかな。このペルシアのネズミは、どうして小さいんですか？　標準仕様のネズミの絵を縮小したみたいに見えますけど。それはネズミの種類が違うんだよ。ドブネズミとハツカネズミ。え？　でもこれ、文字なんだから、たとえばゾウでもアリでも同じ大きさに描かれるものですよね。原則は、そうだね。じゃあ、どうしてドブネズミを縮小したのがハツカネズミなんですか？まあ、ちょっと

sabro 2011/12/29

リンク

JavaScriptで全角/半角判定 — shibu.jp

Note 本コンテンツの一部は、業務時間内に調べた内容を含んでおり、株式会社ディー・エヌ・エーの提供でお送りしております。とある理由で全角、半角の判定が必要になったのですが、簡単技(SJISなどに変換してバイト数計測など)はつかえなかったため、自作する方向で調べて見ました。 Pythonには unicodedata.east_asian_width() という関数があり、エキスパートPythonプログラミングというすばらしい書籍の日本語オリジナルの文字コード関連の章によると、この関数が "F" 、 "W" 、 "A" (ただし、Aはフォントにより変わる曖昧な文字)が返すと全角としてカウントすればよい、と書かれています。こちらを参考にJavaScriptの全角/半角判定を行った幅計算を実装してみます。まずJavaScriptを知る¶ JavaScriptは内部では、UTF-16とい

sabro 2011/11/20

リンク

「Unicode 6.0」が策定、絵文字が国際標準に

sabro 2010/10/14

リンク

文字コード（UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP）についての俺的まとめ - 今日もスミマセン。

「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。間違いなどあればコメントなど頂けるとありがたいです。それぞれの文字コードはどう違うのか？日本語の文字コードは大きく以下の２つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。上で挙げた「文字コード」とは正確には「エンコーディング（文字符号化方式）」の事を指す。文字符号化方式文字集合って？読んでそのまんま”文字の種類の集まり”。「キャラ

sabro 2010/07/11

リンク

UTF-8 Browser Test for Unicode Block 'Arrows'

Summary This is a test page to see how well your browser supports UTF-8 characters in the Arrows Unicode block. Detail 0x00 0x01 0x02 0x03 0x04 0x05 0x06 0x07 0x08 0x09 0x0A 0x0B 0x0C 0x0D 0x0E 0x0F 0x2190

sabro 2010/07/06

リンク

Heroku | Login

Log in to your Heroku account from this secure Heroku login page.

sabro 2010/04/12

リンク

Twitterで使える日本人には無い発想で作られた顔文字、絵文字 - 涙目で仕事しないSE

sabro 2010/04/12

リンク

Unicode の雪だるま - bkブログ

Unicode の雪だるま Unicode Snowman for You というサイトを知りました。Unicode の雪だるま (U+2603 SNOWMAN ☃) が表示されるだけのサイトです。が、ソースを見ると font-face で EOT 形式のウェブフォントが使われていることに気づきました。この EOT (Embedded Open Type) 形式のウェブフォントは IE しか対応していないようです。IE で表示するとこのような雪だるまが表示されました。これはおそらく Arial Unicode MS の雪だるまです。ちょっとこわいような。。一方、他のブラウザで表示すると、このような雪だるまが表示されました。これは私がデフォルトのフォントに設定しているメイリオの雪だるまです。これはかわいい。意外なところにも力が入っています。

sabro 2009/12/24

unicode

リンク

UnicodeとUTF-8の違いは？ - Humanity

という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/

sabro 2009/12/01

リンク

Unicode table for you

The code for this toy is contained in this page, and is available under both the GPL and MIT licenses. View source and help yourself.

sabro 2009/08/23

リンク

第5回■注目される文字コードのセキュリティ問題

今回から5回にわたって，アプリケーション全体に関する文字コードの問題と対策について説明する。文字コードがセキュリティとどう関わるのか，疑問に思うかもしれないが，Webアプリケーションで文字コードを指定可能な個所は非常に多く，しかも文字コードの選定や処理方法次第ではぜい弱性の原因になることが分かってきている（図1）。実は文字コードはWebアプリケーションのセキュリティ問題の最新の話題と言ってよい。 2008年10月に開催されたセキュリティ・イベントBlack Hat Japan 2008では，ネットエージェントの長谷川陽介氏が「趣味と実益の文字コード攻撃」と題して，文字コード問題の広範なプレゼンテーションを発表した。そのプレゼンテーション資料が発表されているのでこの問題の詳細に関心のある方は参照されたい。ここでは，セキュアなWebアプリケーションを開発するために文字コードの問題をどのよう

sabro 2009/02/17

リンク

眉毛いろいろ - しろもじメモランダム

キモすぎなんだけどマジ！誰こいつを流行らそうとしている奴は！誰だよこいつを面白いって言った奴は出てこいよ！ぶっころしてやるよ俺が！きーめーなまじキモカワイイとか言ってまじで！その顔文字、俺の顔にクリソツなんだよ！そういうタグ要らねぇからこれ！ [（　･ิω･ิ）]ってタグは付けるな！ [（　･ิω･ิ）]ってタグは付けるな！はてなブックマーク - [（　･ิω･ิ）]ってタグは付けるな！はてなブックマーク - はてなブックマーク - [（　･ิω･ิ）]ってタグは付けるな！え？別にかわいいと思うんだけど……（　･ิω･ิ）ちなみに眉毛【　ิ】の正体は、U+0E34 の “THAI CHARACTER SARA I”。前にある子音字にくっつき、短母音 [i] を表すらしい。これが半角中黒（U+FF65; HALFWIDTH KATAKANA MIDDLE DOT）の眼【･】と

sabro 2008/09/10

リンク

図解: Perl と Unicode 文字列 - daily dayflower

id:tomi-ru さんが [http://e8y.net/mag/015-encode/:title] というとてもプラクティカルな [http://search.cpan.org/perldoc?Encode:title=Encode] 入門をお書きになったので，わたしも違う切り口で書いてみたくなりました。いちおうの基礎（読み飛ばし可）文字セット, キャラクタセット, 文字集合, 文字集合 - Wikipedia エンコーディング, 符号化方式, 文字符号化方式 - Wikipedia この2つは異なります。とくに知らなくても下記の文書を読むことはできますが，理解しているとためになります。くわしく知りたい人は自習してください。文字セットの例 Unicode JIS X 0208 ひらがなとかカタカナとか漢字とか ASCII 文字エンコーディングの例 UTF-8 ISO-202

sabro 2008/06/21

リンク

Emacs22 UTF-8 における文脈依存な文字幅の問題について

UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。文字によって幅を変えるプロポーショナルフォントを前提としたテキストであればあまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは表示がガタガタになってしまい問題になります。これらの文字を wide character として判別させるには以下の設定を

sabro 2007/10/04

unicode
vim

リンク

波ダッシュ・全角チルダ問題 - Wikipedia

Unicode（ユニコード）は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日本語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても本質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日本語化（J-Star）などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ

sabro 2007/09/23

unicode

リンク

Unicode の文字列をソースコードに埋め込む方法 - bkブログ

Unicode の文字列をソースコードに埋め込む方法 Unicode の文字列をソースコードに埋め込む場合、直接 UTF-8 などで文字列を書く方法と、\uXXXX などのようにエスケープして表記する方法があります。後者の方法についてまとめてみました。 \uXXXX 形式の場合 Java, JavaScript, Python, C++, C (C99から) などの多くの言語では \uXXXX という表記 (universal character names) でUnicode の文字を文字列の中に埋め込めます。たとえば、「あいう」は "\u3042\u3044\u3046" となります。 \uXXXX で埋め込んだ文字がどのように解釈されるかは言語や処理系によって異なります。 gcc/g++ の場合、 -fexec-charset オプションで、実際に使う文字セット・エンコーディングを指

sabro 2007/09/10

リンク

ウノウラボ Unoh Labs: Mac OS X上のUnicode

Firefoxは内部的に変換処理を行うようになっているようです。問題はSafariとOperaですね。選択されたファイルのパスからJavaScriptでファイル名を抜き出してタイトルに設定する部分で、正しく扱えるような文字コードに変換することにしたいと思います。基本的な流れとしては、UTF-8-MAC特有の「U+3099」（COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK）、「U+309A」（COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK）がファイル名に含まれている場合は、その前の文字と結合して濁音・半濁音の文字にしてあげればいいでしょう（ひらがな・カタカナのみの暫定的な対処に過ぎませんが）。変換用の文字テーブルを用意して、逐一変換していくかたちにしたいと思います。というわけ