[B! unicode] ext3のブックマーク

ext3 id:ext3

unicodeに関するext3のブックマーク (7)

Twitter時代の文字の数え方 | 配電盤
入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」（任意の文字からなる0から3文字）のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記：javascript – でBMP以外のUnicode文字をきちんと扱う（404 Blog Not Found） JavaScriptでは、文字列strの長さをst
ext3 2015/01/13
𠮷野家

twitter

max length

文字コード

unicode

utf-8
リンク
UTF-8 - Wikipedia
UTF-8（ユーティーエフはち、ユーティーエフエイト）はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位（1–4バイトの可変長）の文字符号化形式および文字符号化スキーム。正式名称は、ISO/IEC 10646では “UCS Transf ormation Format 8”、Unicodeでは “Unicode Transf ormation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。当初は、ベル研究所においてPlan
ext3 2012/09/04
UTF-8

Unicode

UTF-8N
リンク
UTF8 と UTF8N の違い - alpha @ ウィキ
UTF8 と UTF8N の違い UTF8：　 BOM （Byte Order Mark）付き UTF8N： BOM なし BOMとはUnicodeのエンディアンを示すものでテキスト・ファイルの先頭に置かれている。また、同時にテキスト・ファイルがUnicodeかどうかの判別にも使われることもある。中身は、U+FEFF である。これが、次のような形式の違いで、エンディアンを区別している。 FE FF：ビッグエンディアン（UTF-16) FF FE：リトルエンディアン（UTF-16) 00 00 FE FF：ビッグエンディアン（UTF-32) FE FF 00 00：リトルエンディアン（UTF-32) UTF-8の場合、エンディアンが関係ないので必要ないが付いているものがある。この場合、UTF-8 の BOM は EF BB BF UTF-8Nで保存すると、アプリケーションによ
ext3 2012/09/04
UTF-8

UTF-8N

Unicode

BOM

ビッグエンディアン

リトルエンディアン
リンク
RFC 4042: UTF-9 and UTF-18 Efficient Transformation Formats of Unicode
This RFC was published on the Independent Submission stream. This RFC is not endorsed by the IETF and has no formal standing in the IETF standards process. Network Working Group M. Crispin Request for Comments: 4042 Panda Programming Category: Informational 1 April 2005 UTF-9 and UTF-18 Efficient Transf ormation Formats of Unicode Status of This Memo This memo provides information for the Internet
ext3 2012/09/04
Unicode

UTF-9

RFC
リンク
utf8とutf8Nって？
ブログがお目見えしてから、utf-8という文字コードを初めて知った方は多いだろう。かくゆう私も、実はそうである。 unicodeの存在はおぼろげに知っていたが、MTでその存在が明らかになった。で、MTのutf-8は、正確にはutf-8Nである。 utf-8とutf-8Nの違いは、utf-8がBOMあり、utf-8Nはありません。 BOMとは、unicodeでファイルが保存されるときに、「このファイルはunicodeだよ」と判定できるために、ファイルの先頭につけるコードのことです。さらに知りたい人は、短時間でわかりやすいESRIジャパンのこちらを参考に。と小難しいことはさておいて、MTのカスタマイズに関わってくるutf8について。テンプレートを外部ファイルで保存した場合、エディタで保存するときに、（もちろん設定がutf-8の場合）（※文字コードが選択できるエディタ）「名前をつけ
ext3 2012/09/04
"utf-8とutf-8Nの違いは、utf-8がBOMあり、utf-8Nはありません。 BOMとは、unicodeでファイルが保存されるときに、「このファイルはunicodeだよ」と判定できるために、ファイルの先頭につけるコードのことです"UTF-8N駄目じゃん

Unicode

UTF-8

UTF-8N
リンク
DejaVuフォント - Wikipedia
Serif Condensed (*), Sans Condensed (*), (*): 実験的なスタイル DejaVuフォント (デジャヴフォント) は、Unicode用ラージフォントである。 Bitstream Veraフォントの改変版で、オリジナルを拡張してUnicodeのCJK統合漢字を除いた大部分をカバーし、さらに多くのスタイルを提供するようにデザインされた。Bitstream Veraファミリーは主にUnicodeの基本ラテン文字およびラテン1補助の範囲（ISO-8859-15と概ね等価である）に限定されていたが、改変を許可するライセンスの下でリリースされた。DejaVuフォントプロジェクトは「協調開発の過程を通して、広範囲の文字群を提供する ― 元のルック・アンド・フィールを維持しながら ― 」目的ではじまった。フォントの開発は多くの貢献者によって行われ、Wikiやメーリン
ext3 2012/04/02
CJKは除外"UnicodeのCJK統合漢字を除いた大部分をカバー"

欧文フォント

フォント

dejavu

デジャヴ

font

unicode
リンク
Q. UTF-8 の冗長性問題は、設計上の問題なのか? - kazuhoのメモ置き場
UTF-8 は、逆方向へのスキャンが可能、バイナリ比較の結果が UCS と同じ、といった特徴をもつ一方、冗長なエンコーディングが可能という欠点をもっている。では、前者の特徴を活かしたまま、後者の問題をもたないエンコーディングを定義することはできるだろうか？　定義が可能と考える場合は、そのアルゴリズムを、不可能だと考える場合はその理由を記せ。 (配点:20点) 参考: http://wassr.jp/user/kazuho/statuses/XqsSvKL1hQ, UTF-8 冗長 - Google 検索
ext3 2009/07/21
後で見ない

UTF-8

文字コード

冗長性

Unicode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx