[B! UTF-8][Unicode] ext3のブックマーク

ext3 id:ext3

UTF-8とUnicodeに関するext3のブックマーク (5)

Twitter時代の文字の数え方 | 配電盤
入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」（任意の文字からなる0から3文字）のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記：javascript – でBMP以外のUnicode文字をきちんと扱う（404 Blog Not Found） JavaScriptでは、文字列strの長さをst
ext3 2015/01/13
𠮷野家

twitter

max length

文字コード

unicode

utf-8
リンク
UTF-8 - Wikipedia
* 第1バイトがE0のときに第2バイトが80-9Fの範囲を、または同F0のときに80-8Fの範囲を取るものは冗長な符号化となるため許されない。第1バイトがEDのときに第2バイトがA0以上となるものはサロゲートペアのための符号位置にあたり、また同F4のときに90以上となるものはUnicodeの範囲外となるため、UTF-8ではやはり許されない。 Unicodeの符号位置を2進表記したものを、上のビットパターンのx, yに右詰めに格納する（最少のバイト数で表現するため、yの部分には最低1回は1が出現する）。符号化されたバイト列は、バイト順に関わらず左から順に出力する。 1バイト目の先頭の連続するビット "1"（その後にビット "0" が1つ付く）の個数で、その文字のバイト数がわかるようになっている。また、2バイト目以降はビットパターン "10" で始まり、1バイト目と2バイト目以降では値の範囲が
ext3 2012/09/04
UTF-8

Unicode

UTF-8N
リンク
UTF8 と UTF8N の違い - alpha @ ウィキ
UTF8 と UTF8N の違い UTF8：　 BOM （Byte Order Mark）付き UTF8N： BOM なし BOMとはUnicodeのエンディアンを示すものでテキスト・ファイルの先頭に置かれている。また、同時にテキスト・ファイルがUnicodeかどうかの判別にも使われることもある。中身は、U+FEFF である。これが、次のような形式の違いで、エンディアンを区別している。 FE FF：ビッグエンディアン（UTF-16) FF FE：リトルエンディアン（UTF-16) 00 00 FE FF：ビッグエンディアン（UTF-32) FE FF 00 00：リトルエンディアン（UTF-32) UTF-8の場合、エンディアンが関係ないので必要ないが付いているものがある。この場合、UTF-8 の BOM は EF BB BF UTF-8Nで保存すると、アプリケーションによ
ext3 2012/09/04
UTF-8

UTF-8N

Unicode

BOM

ビッグエンディアン

リトルエンディアン
リンク
utf8とutf8Nって？
ブログがお目見えしてから、utf-8という文字コードを初めて知った方は多いだろう。かくゆう私も、実はそうである。 unicodeの存在はおぼろげに知っていたが、MTでその存在が明らかになった。で、MTのutf-8は、正確にはutf-8Nである。 utf-8とutf-8Nの違いは、utf-8がBOMあり、utf-8Nはありません。 BOMとは、unicodeでファイルが保存されるときに、「このファイルはunicodeだよ」と判定できるために、ファイルの先頭につけるコードのことです。さらに知りたい人は、短時間でわかりやすいESRIジャパンのこちらを参考に。と小難しいことはさておいて、MTのカスタマイズに関わってくるutf8について。テンプレートを外部ファイルで保存した場合、エディタで保存するときに、（もちろん設定がutf-8の場合）（※文字コードが選択できるエディタ）「名前をつけ
ext3 2012/09/04
"utf-8とutf-8Nの違いは、utf-8がBOMあり、utf-8Nはありません。 BOMとは、unicodeでファイルが保存されるときに、「このファイルはunicodeだよ」と判定できるために、ファイルの先頭につけるコードのことです"UTF-8N駄目じゃん

Unicode

UTF-8

UTF-8N
リンク
Q. UTF-8 の冗長性問題は、設計上の問題なのか? - kazuhoのメモ置き場
UTF-8 は、逆方向へのスキャンが可能、バイナリ比較の結果が UCS と同じ、といった特徴をもつ一方、冗長なエンコーディングが可能という欠点をもっている。では、前者の特徴を活かしたまま、後者の問題をもたないエンコーディングを定義することはできるだろうか？　定義が可能と考える場合は、そのアルゴリズムを、不可能だと考える場合はその理由を記せ。 (配点:20点) 参考: http://wassr.jp/user/kazuho/statuses/XqsSvKL1hQ, UTF-8 冗長 - Google 検索
ext3 2009/07/21
後で見ない

UTF-8

文字コード

冗長性

Unicode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx