タグ

unicodeに関するkadoppeのブックマーク (10)

  • Unicodeエスケープまとめ: Java, Python, Ruby - yanok.net

    プログラムのソースファイルに文字を記すときに、キーボードから入力できなかったりフォントがなかったりといった理由で、Unicodeの符号位置を使って記したいことがあります。最近の言語では似た形式でそうしたUnicodeエスケープを記述できますが、微妙に違いがあります。ここではJavaPython, Rubyを比べてみます。 JavaのUnicodeエスケープ Javaではバックスラッシュ(\)とアルファベットのuに続けて4桁の16進数でUnicode符号位置を記します。 例えば、\u4e00 とすれば漢字の「一」を記したのと全く同じことになります。 JavaのUnicodeエスケープはコンパイルの初期段階で処理されるものなので、文字列リテラルの中で改行を意味する \n 等とは扱いが異なることに注意が必要です。このことは『プログラマのための文字コード技術入門』第7章に記しました。 '\u'

  • Unicode その他の記号及び絵記号 - CyberLibrarian

    範囲:1F300~1F5FF Unicodeのその他の記号及び絵記号(The Unicode Standard Miscellaneous Symbols and Pictographs)を十六進数の数値文字参照で記述した表です。 Weather, landscape, and sky symbols(気象、景観、空の記号) Unicode 表示 名称 備考 1F300

  • GitHub - dankogai/js-codepoints: make your javascript handle unicode codepoints more correctly

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - dankogai/js-codepoints: make your javascript handle unicode codepoints more correctly
  • javascript - でBMP以外のUnicode文字をきちんと扱う : 404 Blog Not Found

    2013年03月29日16:00 カテゴリTipsLightweight Languages javascript - でBMP以外のUnicode文字をきちんと扱う 文字コード「超」研究 深沢千尋 一肌脱ぐか。 dankogai/js-codepoints ・ GitHub Twitter時代の文字の数え方 | 配電盤正確には、「Unicode 3.1時代の文字の数え方」なのでしょうが、Unicodeの最新バージョンが6.0の今、それではぱっとしないのでSYNOPSIS log('𠮷野家'.length ); /* 4 // unfortunately */ log('𠮷野家'.codePointsOf() ); /* 3 // naturally */ log('𠮷野家'.codepoints ); /* 3 // naturally */ log(String.fromCode

    javascript - でBMP以外のUnicode文字をきちんと扱う : 404 Blog Not Found
  • Twitter時代の文字の数え方 | 配電盤

    入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」(任意の文字からなる0から3文字)のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記:javascript – でBMP以外のUnicode文字をきちんと扱う(404 Blog Not Found) JavaScriptでは、文字列strの長さをst

  • Unicodeエスケープ - sawatのブログ

    付箋紙Greasemonkeyで、GM_setValueに登録した日語の文字化け対策にencodeURIをつかったけど、encodeURIはURIをエンコードするための関数なのであんまり褒められた使い方ではないですね。しかも、encodeURIのようなURLエンコーディングは文字列をUTF-8にしてから、エンコード対象の各バイトを%xx形式*1で表現するので、日語1文字をあらわすのにたいていの場合ASCII9文字が必要になって効率が悪いです。*2 なので、前述のような単に非ASCII文字をエスケープしたいだけのようなケースではUnicodeエスケープを使った方がよいです。Javaのpropertiesとかnative2asciiとかのやつです。 Unicodeエスケープは\uxxxx*3の形式であらわすので、たいていの日語1文字はASCII6文字になって、URLエンコーディングに比べ

    Unicodeエスケープ - sawatのブログ
  • Unicode Escape Sequence | KWONLINE.ORG

    語などのマルチバイト文字を、「¥uXXXX」形式のユニコードエスケープに変換します。 ユニコードエスケープからの逆変換も出来ます。 下記テキストエリアに入力したのち、[変換]ボタンを押すと、画面下部の結果ボックス内に変換結果が表示されます。 変換に使ってるJavascriptの解説はこちら。 テキストをここに入力する: ¥uXXXX形式に変換(Escape) 日語に変換(Unescape) 結果:

  • UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity

    UnicodeとUTF-8の違いは? - Humanityはあんなに反響があるとは思わなかった。 ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。 と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。 調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。 参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

    UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • 文字を文字コードに変換する(Javaマスター)

    Javaの内部では、文字列はすべてUnicodeとして格納されています。 char型として取り出した1文字をintにキャストを行うことで、その文字の 文字コードを得ることができます。 また、IntegerクラスのtoHexStringメソッドを使うことにより、 int型の整数を16進数に変換することができます。 package samples.string; public class Unicode1 { public static void main(String[] args) { // 文字「あ」です。 char c = 'あ'; // 文字に対応するUnicodeコードを取得します。 int code = (int)c; // 文字コードを表示します。 System.out.println(code); // 文字コードを16進数で表示します。 System.out.println

    kadoppe
    kadoppe 2008/08/14
    1つの文字を16進数の文字コード番号に変換する方法
  • 1