タグ

unicodeに関するnobu666のブックマーク (18)

  • Twitter時代の文字の数え方 | 配電盤

    入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」(任意の文字からなる0から3文字)のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記:javascript – でBMP以外のUnicode文字をきちんと扱う(404 Blog Not Found) JavaScriptでは、文字列strの長さをst

  • Twitterで見かけるハミ出した顔文字の正体 - RyoAnna

    少し前からTwitterで見かけるようになった、上下に飛び出す変な顔文字。 気持ち悪いのであまり関わらないようにしていたのだが、この顔文字の謎が明らかになったのでお伝えしたい。 いつものようにiPhoneのApp Storeをぶらぶらしていた時のこと。 Unicoder Lite (App Store)というアプリが気になりダウンロードした。 起動するとなにやら見慣れた文字が。 顔文字でよく使われるギリシャ文字やキリル文字だ。 しばらく眺めているとこんな符号が。 合成用区分符号 これが上と下の行にはみ出す顔文字の正体だった。 ためしに作ってみよう。 ベースとなる顔文字を置く。 左目に合成用区分符号を入れる。 続いて右目に。 見事にはみ出す。 Unicode(ユニコード)とは、世界中のコンピュータの文字を符号化したもの。その "U+0300-036F" に配置されているダイアクリティカルマー

    Twitterで見かけるハミ出した顔文字の正体 - RyoAnna
  • decodeURIComponentのもろもろについて - 枕を欹てて聴く

    追記1 SpiderMonkeyのサロゲートエリアのbug issue は修正されました! (該当commit) 記事の一番下を御覧ください. 追記2 V8のサロゲートエリアのbug issue は修正されました!(該当commit) これで以下の記事のサロゲートエリアのbugはV8, SpiderMonkey, JSCで修正されました 普段1.5ヶ月に1記事しか書かないのに, 今日は3つも書いて正気の沙汰じゃないで... id:piro_or さんよりcommentで, id:nanto_vi さんの以下の記事の話を受けましたのでー. (commentついたの1年ぶりで感涙) 文字列と UTF-8 バイト列の相互変換: Days on the Moon リンク先の記事では, 以下の方法によるUTF-16 <=> UTF-8の変換が記載されています. function toUTF8Octe

  • UTS #18: Unicode Regular Expressions

    Summary This document describes guidelines for how to adapt regular expression engines to use Unicode. Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a stable document and may be used as reference material or cited as a normative reference by other specifications. A Unicode Technical S

  • 複数行にまたがる括弧はなぜズレるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InD-Boardで出ていた「複数行にまたがる括弧」の話が興味深かったので、ちょっと調べてみた。皆さんの指摘に付け加えるような知見はないのだけれど、以下、文字コード的な雑談として。 Unicodeには、複数行にまたがる丸括弧、角括弧、波括弧がある(下図)。このうち2文字で作る波括弧は、左上と右下、左下と右上のパーツが共通なので、文字数としては、ここまでで16文字。 これらの括弧には、拡張用の直線パーツ(下図、グレー地)が用意されている。丸括弧用と角括弧用はそれぞれ左右別々、波括弧用のみ左右共通で、文字数としては5文字。しかしAdobe-Japan1では、これら5文字がすべてCID+12167に集約されており、区別してデザインすることができない。 下図は小塚明朝。角括弧の拡張はうまくいっているが、丸括弧と波括弧は直線部分がズレている。また、2文字分の波括弧のパーツは、おそらく左右共用ではなく

    複数行にまたがる括弧はなぜズレるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • なぜUnicodeには分数の「0/3」が入っているのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    Adobe-Japan1の分数は(特にUnicodeとの関係において)けっこうぐしゃぐしゃなので、ちょっと整理してみよう。下図は、横棒を使う分数のリスト*1。Proフォントでは「分数(afrc)」フィーチャで用いられる。分母が2から12までの約分できない真分数と「0/3」と「1/100」。 上図と同じ字種について、数字を斜めに配置するグリフも用意されている(下図)。これらはProフォントでは「スラッシュを用いる分数(frac)」フィーチャで用いられる*2。 上図のグリフはすべて全角だが、斜めに配置する分数の一部には、プロポーショナル・グリフも用意されている(下図)。 下図は、Unicodeに含まれる分数を、Mac OS Xの文字ビューアからInDesignに入力したもの。Adobe-Japan1ではプロポーショナル(黄色地)優先のマッピングであるため、「2/5」などの全角グリフ(グレー地)

    なぜUnicodeには分数の「0/3」が入っているのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity

    UnicodeとUTF-8の違いは? - Humanityはあんなに反響があるとは思わなかった。 ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。 と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。 調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。 参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

    UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity
    nobu666
    nobu666 2010/01/27
    この辺正しく理解出来ていない人は結構多い気がする
  • 第9回 文字コードが引き起こす表示上の問題点[前編] | gihyo.jp

    文字コードが引き起こす問題点は、これまで説明したような比較の一致・不一致といったソフトウェアの処理上のものだけでなく、人間に対する視覚的な効果という点でも強く影響を与え、攻撃者にとっての強力な道具となることがあります。 今回および次回で、そのような文字コードが引き起こす視覚的な問題点を紹介します。 視覚的に似た文字 見かけのよく似た文字は、フィッシングなどによく利用されます。典型的な例としては、アルファベット小文字のl(エル)と数字の1などがあります。たとえば、http://bank1.example.jp/ というURLのオンラインバンクがあったとすると、攻撃者は http://bankl.example.jp/ というURLを使ってフィッシングを企むということは容易に想像できると思います。 もちろん、収録している文字数が増えれば増えるだけ、このように見かけのよく似た文字が存在する率も高

    第9回 文字コードが引き起こす表示上の問題点[前編] | gihyo.jp
  • 本当は怖い文字コードの話 記事一覧 | gihyo.jp

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    本当は怖い文字コードの話 記事一覧 | gihyo.jp
  • 絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

    Unicodeが携帯電話の絵文字を収録へ 絵文字ってなに?そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな! 8割の女性は「恋人以外にも使う」』(RBB NAVI)なんていうニュースもありました。携帯電話の個人普及率が9割を上回る(平成20年内閣府消費動向調査)この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。 まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

    絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
  • JavaとMySQLの組み合わせでUnicodeのU+00A5を用いたSQLインジェクションの可能性

    補足 この記事は旧徳丸浩の日記からの転載です(元URL、アーカイブはてなブックマーク1、はてなブックマーク2)。 備忘のため転載いたしますが、この記事は2008年12月22日に公開されたもので、当時の徳丸の考えを示すものを、基的に内容を変更せずにそのまま転載するものです。 補足終わり 今年のBlack Hat Japanには、はせがわようすけ氏が「趣味と実益の文字コード攻撃」と題して講演され話題となった。その講演資料が公開されているので、私は講演は聞き逃したが、資料は興味深く拝見した。その講演資料のP20以降には、「多対一の変換」と題して、UnicodeのU+00A5(通貨記号としての¥)が、他の文字コードに変換される際にバックスラッシュ「\」(日語環境では通貨記号)の0x5Cに変換されることから、パストラバーサルが発生する例が紹介されている。 しかし、バックスラッシュと言えばSQL

  • Unicode内にムーンスティックみつけたw

    Unicode内にムーンスティックみつけたw スポンサードリンク Tweet Unicode Character 'BLACK MOON LILITH' (U+26B8) [www.fileformat.info] ▲まぼろしの銀水晶をはめるとパワーアップしますw 地元で朝日放送開局してセーラームーン始まったときはすでにネフライトしんでた 個人的にはムーンティアラアクションの方が好き。 Unicode 5.1なのでたいていの環境では使えないと思う……

  • ke-tai.org > Blog Archive > Googleが絵文字のユニコード符号化を提案しているようです

    Google絵文字のユニコード符号化を提案しているようです Tweet 2008/11/27 木曜日 matsui Posted in ニュース | 2 Comments » Google Japan Blogにケータイに関連する興味深い記事がありましたのでご紹介します。 Googleが日国内のケータイ絵文字をユニコードの文字として符号化するよう提案しているようです。 → Google Japan Blog 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ [googlejapan.blogspot.com] なんだか一見難解でよくわからない内容ですが、こちらのブログがわかりやすく解説してくれています。 → Cafe Babe 携帯の絵文字のUnicodeへの収録 [d.hatena.ne.jp] つまり、まとめるとこういうことでしょうか。 日のケータイ絵文字をユニコー

  • UTF-7でXSSを発生させる10の方法 - UTF-7でXSSを発生させる10の方法

    ちょっと書いてみました。毎回毎回、UTF-7に変換してURLエンコードして…とかするのがめんどくさいので、よく使うパターンを書いていこうと思います。 UTF-7 XSS Cheat Sheet 今日は眠いのでここまで。他のパターンとか解説を書き加えて、随時更新していきます。

    UTF-7でXSSを発生させる10の方法 - UTF-7でXSSを発生させる10の方法
  • ShiftJIS,Unicode(UTF-8) - プログラマー'sペイジ

    VC++による,ShiftJISコードとUnicodeの変換処理の実装 VC++による,ShiftJISコードとUnicodeの変換処理の実装 ShiftJIS, Unicode(UTF-8) XMLとかJavaとか扱うと,Unicodeという文字コードが頻繁に出てきます. 我々PCユーザーには,ShiftJISコードがなじみ深いのですが, ちょっとUnicodeは避けて通れないなあという気がしてきます. そこで今回は,ShiftJISコードとUnicodeの変換関数をC++で作ってみました. とは言っても,実際にShiftJISとUnicodeの相互変換の処理を実装するのは, かなり大変なので,VisualC++のライブラリ関数の力を拝借しています. Unicodeというコード体系は,いくつかの方法で実際にコード化されています. 例えば UTF-16BE(ビッグエンディアン) UTF-1

  • KamoLand

  • Unicodeメモ

    最も短い文字名 (Unicode 3.2.0) 3字 U+22BB (XOR) U+22BD (NOR) U+2312 (ARC) U+2609 (SUN) U+264C (LEO) 最も長い文字名 (Unicode 3.2.0) 83字 U+FBF9 (ARABIC LIGATURE UIGHUR KIRGHIZ YEH WITH HAMZA ABOVE WITH ALEF MAKSURA ISOLATED FORM) 四種の正規形 (NFD, NFC, NFKD, NFKC) がすべて異なる文字 (Unicode 3.2.0) 以下の通り。 U+03D3 (GREEK UPSILON WITH ACUTE AND HOOK SYMBOL): NFD <U+03D2, U+0301>, NFC <U+03D3>, NFKD <U+03A5, U+0301>, NFKC <U+038E>

  • 1