タグ

unicodeに関するzanastaのブックマーク (9)

  • 全角チルダ問題

    株式会社メルカリ様で行われた第2回CircleCI ユーザーコミュニティミートアップでの資料です。 #circlecijp

    全角チルダ問題
  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • wが二つ重なった文字「ʬ」がバイラビアル・パーカッシブだと調べる方法

    もともと2ちゃんねるで回答されたものみたいですが、「wが縦に二つ重なった文字の出し方教えて」という質問に対して、「ʬ」を出したり、その読み方が「バイラビアルパーカッシブ」だと回答した人はどうやって調べたんでしょうね。 そ […] もともと2ちゃんねるで回答されたものみたいですが、「wが縦に二つ重なった文字の出し方教えて」という質問に対して、「ʬ」を出したり、その読み方が「バイラビアルパーカッシブ」だと回答した人はどうやって調べたんでしょうね。 その回答者がこれを使ったかどうかはわかりませんが、ユニコード内の文字だと、ShapeCatcherというサイトで調べられます。 左側のボックスに、マウスで探したい文字を書き、”Recognize”(認識せよ)をクリックすると、下にそれに近い文字が列挙されます。wを縦に二つ書いてみましょう。 コード 0x2ac のラテン文字 bilabial perc

    wが二つ重なった文字「ʬ」がバイラビアル・パーカッシブだと調べる方法
  • UTF-8にもいろいろある - ザリガニが見ていた...。

    前回からの続き。 改行コードの違いを体感してみる - ザリガニが見ていた...。 文字エンコードとロケールを体感する - ザリガニが見ていた...。 改行コードの違いも知った。文字コードとロケール、ターミナルの言語環境との関係も知った。これで文字にまつわる悩みとはおさらばできると思ったら、まだダメだった...。 実験環境 OSX 10.8 Mountain Lion以前((OSX 10.9 Mavericksでは、Mac仕様なNFDのUTF-8を表示しようとするとエラーになってしまったため、10.8以前の環境で実験した。Assertion failed: (width > 0), function conv_c, file /SourceCache/shell_cmds/shell_cmds-175/hexdump/conv.c, line 137. ** ** Abort trap: 6

    UTF-8にもいろいろある - ザリガニが見ていた...。
  • Unicodeライブラリにセキュリティ脆弱性

    JPCERTコーディネーションセンターおよび独立行政法人情報処理推進機構(IPA)は10月30日、セキュリティ脆弱性に関する情報「JVN#70739377 - 複数製品で使用されている International Components for Unicode (ICU) にサービス運用妨害 (DoS) の脆弱性」を公開した。Unicodeライブラリにセキュリティ脆弱性が存在し、この脆弱性を利用されるとDoS攻撃を受ける可能性があるという。 セキュリティ脆弱性が発見されたライブラリはInternational Components for Unicode (ICU)。ICUはUnicode文字列を操作するためのライブラリで、C言語向けのライブラリとJava向けのライブラリが提供されている。セキュリティ脆弱性が修正されたバージョンは2012年12月にすでにリリースされている。 ICUはさまざま

  • 文字を上下反転させるサービス「Lunicode」のまとめ

    ご存知の方も多いと思いますが、文字を上下反転するサービス「Lunicode」の紹介です。 Lunicode 文字反転だけを紹介しているサイトが多いのですが、他にも色々な機能があるのでまとめて紹介したいと思います。 またJavaScriptライブラリがGitHubで公開されているので、利用方法についてあわせて紹介します。 1.文字を上下反転する 使い方を説明するまでもありませんが、ページ上のテキストエリアに文字を入力します。 上下反転した文字がリアルタイムに下のテキストエリアに表示されます。 上下反転した文字は、以下のようにコピー&ペーストすることができます。 ɓɟǝpɔqɐ 下のテキストエリアに文字を入力すれば、上のテキストエリアに上下反転文字が表示されます。 全角文字は対象外のようです。 2.文字を装飾する このサイトでは上下反転でなく、ミラー(裏返し)や文字装飾なども可能です。左側にあ

  • Unicodeスタンダードバージョン6.3登場

    Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. Unicodeコンソーシアムは9月30日(米国時間)、Unicodeスタンダードの最新版となる「Unicodeスタンダードバージョン6.3」を発表した。このバージョンにはブラウザ開発者から寄贈されたコードをベースにアラビア語、ヘブライ語、ペルシャ語、ウルドゥー語などの表示を改善することになる新しいアルゴリズムと5つの新しいbidiフォーマットキャラクタが含まれている。これら言語に関して従来よりもより自然な表示が可能になる。CSSとの相性もよく、これら言語における文字列の挿入処理やユー

  • Masato Kinugawa Security Blog: U+2028/2029とDOM based XSS

    ECMAScriptの仕様では、0x0A/0x0D以外にU+2028/2029の文字も改行とすることが明記されています。 これはあまり知られていないように思います。 以下はアラートを出します。 <script> //[U+2028]alert(1) </script> 知られていないだけでなく、知っていたとしても、スクリプトで文字列を処理するときに、U+2028/2029まで考慮する開発者がどれだけいるのかという話です。 実際、U+2028/2029を放り込むと文字列リテラル内にその文字が生のまま配置され、エラーが出るページは当にたくさんあります。まあ、エラーがでるだけなら、大抵の場合大きな問題にはなりません。 ところが、U+2028/2029によってXSSが引き起こされてしまう場合というのを最近実際に見ました。 Googleのサービスで見つけた2つのケースを取り上げたいと思います。 ケ

  • [連載:正規表現] Unicode文字プロパティについて(1)|TechRacho by BPS株式会社

    はじめまして、hachi8833です。 正規表現において、使わないまま死ぬのはあまりにもったいない「Unicode文字プロパティ」について解説します。これについてネット上にまとまった情報がほとんどなく、しかたがないので自分で書くことにしました。書きながら早くも記事があふれてきたので、見出しに「連載」の文字を追加などしてみました。たぶん他所ではほとんど見かけることのない連載になると思います。よろしくお願いします。 通常の開発においては、目的を達成する正規表現を作成してコードが動けば事足りるものであり、コーディング中に正規表現と延々付き合うことは普通ないでしょう。料理人は包丁を研ぐのに時間をかけすぎないものです。しかし特殊な業界の特殊な人々(日に5人もいないと思います)は、来る日も来る日も正規表現を書き続けていたりするので、このUnicode文字プロパティは当にありがたいものです。私の場合

    [連載:正規表現] Unicode文字プロパティについて(1)|TechRacho by BPS株式会社
  • 1