タグ

unicodeに関するext3のブックマーク (7)

  • Twitter時代の文字の数え方 | 配電盤

    入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」(任意の文字からなる0から3文字)のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記:javascript – でBMP以外のUnicode文字をきちんと扱う(404 Blog Not Found) JavaScriptでは、文字列strの長さをst

  • UTF-8 - Wikipedia

    UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1–4バイトの可変長)の文字符号化形式および文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan

  • UTF8 と UTF8N の違い - alpha @ ウィキ

    UTF8 と UTF8N の違い UTF8:  BOM (Byte Order Mark)付き UTF8N: BOM なし BOMとはUnicodeのエンディアンを示すものでテキスト・ファイルの先頭に置かれている。 また、同時にテキスト・ファイルがUnicodeかどうかの判別にも使われることもある。 中身は、U+FEFF である。 これが、次のような形式の違いで、エンディアンを区別している。 FE FF: ビッグエンディアン(UTF-16) FF FE: リトルエンディアン(UTF-16) 00 00 FE FF: ビッグエンディアン(UTF-32) FE FF 00 00: リトルエンディアン(UTF-32) UTF-8の場合、エンディアンが関係ないので必要ないが付いているものがある。 この場合、UTF-8 の BOM は EF BB BF UTF-8Nで保存すると、アプリケーションによ

    UTF8 と UTF8N の違い - alpha @ ウィキ
  • RFC 4042: UTF-9 and UTF-18 Efficient Transformation Formats of Unicode

    This RFC was published on the Independent Submission stream. This RFC is not endorsed by the IETF and has no formal standing in the IETF standards process. Network Working Group M. Crispin Request for Comments: 4042 Panda Programming Category: Informational 1 April 2005 UTF-9 and UTF-18 Efficient Transformation Formats of Unicode Status of This Memo This memo provides information for the Internet

  • utf8とutf8Nって?

    ブログがお目見えしてから、utf-8という文字コードを初めて知った方は多いだろう。かくゆう私も、実はそうである。 unicodeの存在はおぼろげに知っていたが、MTでその存在が明らかになった。 で、MTのutf-8は、正確にはutf-8Nである。 utf-8utf-8Nの違いは、utf-8がBOMあり、utf-8Nはありません。 BOMとは、unicodeでファイルが保存されるときに、「このファイルはunicodeだよ」と判定できるために、ファイルの先頭につけるコードのことです。 さらに知りたい人は、短時間でわかりやすいESRIジャパンのこちらを参考に。 と小難しいことはさておいて、MTのカスタマイズに関わってくるutf8について。 テンプレートを外部ファイルで保存した場合、 エディタで保存するときに、(もちろん設定がutf-8の場合) (※文字コードが選択できるエディタ) 「名前をつけ

    utf8とutf8Nって?
    ext3
    ext3 2012/09/04
    "utf-8とutf-8Nの違いは、utf-8がBOMあり、utf-8Nはありません。 BOMとは、unicodeでファイルが保存されるときに、「このファイルはunicodeだよ」と判定できるために、ファイルの先頭につけるコードのことです"UTF-8N駄目じゃん
  • DejaVuフォント - Wikipedia

    Serif Condensed (*), Sans Condensed (*), (*): 実験的なスタイル DejaVuフォント (デジャヴフォント) は、Unicode用ラージフォントである。 Bitstream Veraフォントの改変版で、オリジナルを拡張してUnicodeのCJK統合漢字を除いた大部分をカバーし、さらに多くのスタイルを提供するようにデザインされた。Bitstream Veraファミリーは主にUnicodeの基ラテン文字およびラテン1補助の範囲(ISO-8859-15と概ね等価である)に限定されていたが、改変を許可するライセンスの下でリリースされた。DejaVuフォントプロジェクトは「協調開発の過程を通して、広範囲の文字群を提供する ― 元のルック・アンド・フィールを維持しながら ― 」目的ではじまった。フォントの開発は多くの貢献者によって行われ、Wikiやメーリン

    DejaVuフォント - Wikipedia
    ext3
    ext3 2012/04/02
    CJKは除外"UnicodeのCJK統合漢字を除いた大部分をカバー"
  • Q. UTF-8 の冗長性問題は、設計上の問題なのか? - kazuhoのメモ置き場

    UTF-8 は、逆方向へのスキャンが可能、バイナリ比較の結果が UCS と同じ、といった特徴をもつ一方、冗長なエンコーディングが可能という欠点をもっている。では、前者の特徴を活かしたまま、後者の問題をもたないエンコーディングを定義することはできるだろうか? 定義が可能と考える場合は、そのアルゴリズムを、不可能だと考える場合はその理由を記せ。 (配点:20点) 参考: http://wassr.jp/user/kazuho/statuses/XqsSvKL1hQ, UTF-8 冗長 - Google 検索

    Q. UTF-8 の冗長性問題は、設計上の問題なのか? - kazuhoのメモ置き場
  • 1