[B! unicode] kadoppeのブックマーク

kadoppe id:kadoppe

unicodeに関するkadoppeのブックマーク (10)

Unicodeエスケープまとめ: Java, Python, Ruby - yanok.net
プログラムのソースファイルに文字を記すときに、キーボードから入力できなかったりフォントがなかったりといった理由で、Unicodeの符号位置を使って記したいことがあります。最近の言語では似た形式でそうしたUnicodeエスケープを記述できますが、微妙に違いがあります。ここではJavaとPython, Rubyを比べてみます。 JavaのUnicodeエスケープ Javaではバックスラッシュ(\)とアルファベットのuに続けて4桁の16進数でUnicode符号位置を記します。例えば、\u4e00 とすれば漢字の「一」を記したのと全く同じことになります。 JavaのUnicodeエスケープはコンパイルの初期段階で処理されるものなので、文字列リテラルの中で改行を意味する \n 等とは扱いが異なることに注意が必要です。このことは『プログラマのための文字コード技術入門』第7章に記しました。 '\u'
kadoppe 2016/11/28
*programming

unicode
リンク
Unicode その他の記号及び絵記号 - CyberLibrarian
範囲：1F300～1F5FF Unicodeのその他の記号及び絵記号（The Unicode Standard Miscellaneous Symbols and Pictographs）を十六進数の数値文字参照で記述した表です。 Weather, landscape, and sky symbols（気象、景観、空の記号） Unicode 表示名称備考 1F300
kadoppe 2016/11/25
*programming

unicode

charset
リンク
GitHub - dankogai/js-codepoints: make your javascript handle unicode codepoints more correctly
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
kadoppe 2013/03/30
*programming

javascript

unicode
リンク
javascript - でBMP以外のUnicode文字をきちんと扱う : 404 Blog Not Found
2013年03月29日16:00 カテゴリTipsLightweight Languages javascript - でBMP以外のUnicode文字をきちんと扱う文字コード「超」研究深沢千尋一肌脱ぐか。 dankogai/js-codepoints ・ GitHub Twitter時代の文字の数え方 | 配電盤正確には、「Unicode 3.1時代の文字の数え方」なのでしょうが、Unicodeの最新バージョンが6.0の今、それではぱっとしないのでSYNOPSIS log('𠮷野家'.length ); /* 4 // unfortunately */ log('𠮷野家'.codePointsOf() ); /* 3 // naturally */ log('𠮷野家'.codepoints ); /* 3 // naturally */ log(String.fromCode
kadoppe 2013/03/30
*programming

unicode

javascript
リンク
Twitter時代の文字の数え方 | 配電盤
入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」（任意の文字からなる0から3文字）のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記：javascript – でBMP以外のUnicode文字をきちんと扱う（404 Blog Not Found） JavaScriptでは、文字列strの長さをst
kadoppe 2013/03/30
*programming

unicode
リンク
Unicodeエスケープ - sawatのブログ
付箋紙Greasemonkeyで、GM_setValueに登録した日本語の文字化け対策にencodeURIをつかったけど、encodeURIはURIをエンコードするための関数なのであんまり褒められた使い方ではないですね。しかも、encodeURIのようなURLエンコーディングは文字列をUTF-8にしてから、エンコード対象の各バイトを%xx形式*1で表現するので、日本語１文字をあらわすのにたいていの場合ASCII9文字が必要になって効率が悪いです。*2 なので、前述のような単に非ASCII文字をエスケープしたいだけのようなケースではUnicodeエスケープを使った方がよいです。Javaのpropertiesとかnative2asciiとかのやつです。 Unicodeエスケープは\uxxxx*3の形式であらわすので、たいていの日本語１文字はASCII6文字になって、URLエンコーディングに比べ
kadoppe 2011/07/22
*programming

javascript

unicode
リンク
Unicode Escape Sequence | KWONLINE.ORG
日本語などのマルチバイト文字を、「¥uXXXX」形式のユニコードエスケープに変換します。ユニコードエスケープからの逆変換も出来ます。下記テキストエリアに入力したのち、[変換]ボタンを押すと、画面下部の結果ボックス内に変換結果が表示されます。変換に使ってるJavascriptの解説はこちら。テキストをここに入力する: ¥uXXXX形式に変換(Escape) 日本語に変換(Unescape) 結果:
kadoppe 2011/02/21
*web

tool

unicode
リンク
UnicodeとUTF-8の違いは？ - 自分的まとめ - Humanity
UnicodeとUTF-8の違いは？ - Humanityはあんなに反響があるとは思わなかった。ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact
kadoppe 2010/03/07
unicode

utf-8
リンク
UnicodeとUTF-8の違いは？ - Humanity
という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/
kadoppe 2009/12/01
*pc

unicode

utf-8
リンク
文字を文字コードに変換する(Javaマスター)
Javaの内部では、文字列はすべてUnicodeとして格納されています。 char型として取り出した1文字をintにキャストを行うことで、その文字の文字コードを得ることができます。また、IntegerクラスのtoHexStringメソッドを使うことにより、 int型の整数を16進数に変換することができます。 package samples.string; public class Unicode1 { public static void main(String[] args) { // 文字「あ」です。 char c = 'あ'; // 文字に対応するUnicodeコードを取得します。 int code = (int)c; // 文字コードを表示します。 System.out.println(code); // 文字コードを16進数で表示します。 System.out.println
kadoppe 2008/08/14
1つの文字を16進数の文字コード番号に変換する方法

*programming

java

unicode
リンク
1