タグ

programmingとunicodeに関するKanasansoftのブックマーク (6)

  • 絵文字を支える技術について|nona

    はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。 こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。 軽く自己紹介をさせていただくと、普段はGoogleAndroidTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。 今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵

    絵文字を支える技術について|nona
    Kanasansoft
    Kanasansoft 2023/12/06
    emojiの拡張を許すとunicodeが混沌とするのは目に見えてたんだから、各キャリア独自のemojiの互換性のみに注力して基本拡張禁止にすべきだったと思う。国旗だけは例外的に対応しないといけないと思うけども。
  • ぼくたちのかんがえたさいきょうのi18n国家

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 記事は下記のtweetから始まるスレッドに触発され、@qnighyや@na4zagin3からアイディアを拝借して書いた。 i18n力が最強の国は国内に複数の言語があり、そのうちいくつかは他国でも使われている言語の方言で、1バイト文字での代替表記が困難で、歴史的にISO-2022ベースの文字コードとUnicodeと独自エンコーディングが混在していて、フリガナなどの特殊な組版規則があり、右書き左書き縦書きを併用し、 — Masaki Hara (@qnighy) 2018年8月6日 皆さんのおかげで最強のi18n国家が建設されつつある。一

    ぼくたちのかんがえたさいきょうのi18n国家
    Kanasansoft
    Kanasansoft 2018/08/07
    i18n(国際化)に関する数々の知見。|生まれた日が曖昧なことがあるので厳格な誕生日の入力や変更に関しても。|i18n関係ないけど血液型の稀血。
  • RLOの実験 | Okumura's Blog

    RIGHT-TO-LEFT OVERRIDE(U+202E,UTF-8: E2 80 AE)のMac OS Xでの実験: cd ~/Desktop touch `ruby -e 'print"S\xe2\x80\xaetxt.exe"'` これでS[RLO]txt.exeというファイルができる。デスクトップを見たら拡張子がtxtのように見える。 すでにこの偽装法を使ったウイルスはWinnyのネットワークで広まっているという(Winnyネットワークはやっぱり真っ黒,NTTコミュニケーションズの小山氏に聞く:ITpro)。右クリック→「プロパティ」(Mac OS Xでは「情報を見る」)で一番上の「のプロパティ」(Mac OS Xでは「の情報」)が逆になっているので見破れる。 [2007-04-22追記] スラッシュドット ジャパン | Winnyネットワークに広がるRLO利用の拡張子偽装手法

  • www.nutsecurity.com

    Working with hugedomains.com was a quick and easy process. We got to speak to multiple real people located in Colorado without having to wait on hold! Our only complaint was we felt we had to overpay more than this particular domain was worth, and we weren't able to negotiate it down to a level that we felt was fair. However, payment and delivery were seamless, and within a few hours we had all of

    www.nutsecurity.com
  • それ Unicode で

    UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

  • UTF-8 エンコーディングの危険性 - WebOS Goodies

    的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。 例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです(昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

  • 1