タグ

unicodeに関するKanasansoftのブックマーク (16)

  • 絵文字を支える技術について|nona

    はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。 こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。 軽く自己紹介をさせていただくと、普段はGoogleAndroidTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。 今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵

    絵文字を支える技術について|nona
    Kanasansoft
    Kanasansoft 2023/12/06
    emojiの拡張を許すとunicodeが混沌とするのは目に見えてたんだから、各キャリア独自のemojiの互換性のみに注力して基本拡張禁止にすべきだったと思う。国旗だけは例外的に対応しないといけないと思うけども。
  • 「ドコモの絵文字が見づらい問題」を考える なぜ、今のスマホにそぐわないのか

    携帯電話を用いたコミュニケーションの手法の1つに「絵文字」がある。日で生まれたこの絵文字は、GoogleAppleによって標準化され、今ではさまざまなスマートフォンやPCでもでも閲覧できる。 その一方、ドコモで販売されるAndroidスマートフォンには、いまだフィーチャーフォン時代の絵文字が表示される。しかしこれが今のスマートフォンにそぐわない側面が出ている。この絵文字問題について考察したい。 今の絵文字は日のものをベースにGoogleAppleが標準化を提案 絵文字を携帯電話に採用したのは、NTTドコモが最初だ。この後にDDI(現au)、J-フォン(現ソフトバンク)が採用する形で続く。絵文字にはシフトJISというコードが用いられていたが、互換性維持の空き領域に絵文字を割り当てたことから、キャリア間で互換性がなく、文字化けの要因となっていた。 後に自動変換サービスも展開されたが、使

    「ドコモの絵文字が見づらい問題」を考える なぜ、今のスマホにそぐわないのか
    Kanasansoft
    Kanasansoft 2023/10/29
    UnicodeにはEVSという機能(簡単に言うと機種依存文字風とEmoji風で見た目を切り替える機能)があるんだけどこれ使えば解決すると思う。策定されてからかなり時間経ってるのに何で使ってないんだろうか。
  • ぼくたちのかんがえたさいきょうのi18n国家

    記事は下記のtweetから始まるスレッドに触発され、@qnighyや@na4zagin3からアイディアを拝借して書いた。 i18n力が最強の国は国内に複数の言語があり、そのうちいくつかは他国でも使われている言語の方言で、1バイト文字での代替表記が困難で、歴史的にISO-2022ベースの文字コードとUnicodeと独自エンコーディングが混在していて、フリガナなどの特殊な組版規則があり、右書き左書き縦書きを併用し、 — Masaki Hara (@qnighy) 2018年8月6日 皆さんのおかげで最強のi18n国家が建設されつつある。一瞬で滅びそう — Masaki Hara (@qnighy) 2018年8月6日 長い前置き ソフトウェアのi18nは難しい。自文化では当たり前と思っていてハードコードしてしまった仮定が崩れて、大幅な再設計を余儀なくされるからだ。気づいて再設計できればまだ良

    ぼくたちのかんがえたさいきょうのi18n国家
    Kanasansoft
    Kanasansoft 2018/08/07
    i18n(国際化)に関する数々の知見。|生まれた日が曖昧なことがあるので厳格な誕生日の入力や変更に関しても。|i18n関係ないけど血液型の稀血。
  • 長寿と繁栄を〜iOS 8.3の隠し絵文字でバルカン式挨拶を入力する方法

    iOS 8.3で、バルカン式挨拶の絵文字を入力する方法が紹介されていました。 iOS 8.3では、人種の多様性への配慮などにより、新たに300以上の絵文字が追加されています。 多様性を突き詰めると、やはり人間だけでなく宇宙の隣人へも気遣いも忘れてはいけないので、「スタートレック」のバルカン人の挨拶で使われるハンドジェスチャーの絵文字も含まれています。 このアイコンは絵文字キーボードには含まれておらず、辞書に登録しておくと簡単に入力できて便利です。 バルカン人の方はぜひお試しを。Live long and prosper。 【追記】iOS 9.1より、隠し絵文字ではなくなり、絵文字キーボードから入力できるようになりました。 バルカン式挨拶の絵文字を入力する方法 iOS 8.3を適用する このTweetを開き、絵文字をコピーする 「設定」>「一般」>「キーボード」>「ユーザー辞書」を開く 絵文

    長寿と繁栄を〜iOS 8.3の隠し絵文字でバルカン式挨拶を入力する方法
  • マイクロソフト、Officeで58,000の異体字を利用できる無償アドイン

    マイクロソフトは11月9日、Word、ExcelPowerPointなどのマイクロソフト製品上でUnicode IVDに対応した異体字の取り扱いを可能にするアドイン「Unicode IVS Add-in for Microsoft Office(以下、IVS Add-in)」の提供を開始すると発表した。 アドインを使用することにより、これまで各団体の情報システムごとに個別で必要だった外字の作成・維持コストが不要となり、異なる団体・情報システム間での異体字を含むデータの保全・活用が容易となり、人名、地名など、異体字を含むデータを正確に取り扱うことが求められる自治体や、金融機関などにおける活用が期待される。 今回提供される「IVS Add-in」は、Windows 7、Office 2010などのマイクロソフト製品上でUnicode IVD(UTS#37:Unicode標準の中で様々な

    マイクロソフト、Officeで58,000の異体字を利用できる無償アドイン
    Kanasansoft
    Kanasansoft 2013/07/29
    『Word、Excel、PowerPointなどのマイクロソフト製品上でUnicode IVDに対応』『異体字』『Unicode IVS Add-in for Microsoft Office』
  • Character Code on Basic Resident Registration Network in Japan

    2012年4月6日付,最高裁判所事務総局経理局一般競争入札「裁判員候補者に対する通知書等の印刷,発送及び集計等の業務 一式」の官報公告には,以下の条件が付されていた。 件業務の通知書等の印刷物は,KAJO_J明朝フォントを利用したものを作成すること。 実は,裁判員候補者予定者名簿システムや,後期高齢者医療広域連合電算処理システムには,住民基台帳ネットワーク(以下,住基ネット)に使われている文字コードと,同一の文字コードが用いられている。いわゆる住民基台帳ネットワーク統一文字(以下,住基文字)と呼ばれている文字コードだ。ところが,この入札公告では,住基文字の使用を,入札条件として書いていない。その代わり,「KAJO_J明朝」という住基文字と互換なフォントを指定することで,結果として使用する文字コードを,住基文字に決め打ちさせているわけである。 ではなぜ,この入札公告は,住基文字の使用を

    Kanasansoft
    Kanasansoft 2013/07/29
    『住民基本台帳ネットワーク統一文字は,もはや現代のOS上では動作しない文字コードになってしまっている』『住民基本台帳ネットワーク統一文字の問題点と,その問題点を踏まえた上での今後の方策について述べる』
  • CHaracter Information Service Environment

    [CHISE] [XEmacs CHISE] [Ruby/CHISE] [Perl/CHISE] [TopicMaps] [IDS] [glyph] [Visualization] [Ω] CHISE / 漢字構造情報データベース ISO/IEC 10646-1:2000 の IDS 形式に基づく漢字の構造情報データベースを開発中です。 現在、ISO/IEC 10646-1 の基統合漢字 (Unicode 例示字形), 統合漢字拡張 A, ISO/IEC-10646-2 の統合漢字拡張 B の約7万字が入力済です。 構造情報データベースのサンプル IDS-UCS-Basic.txt CJK Unified Ideographs (U+4E00 〜 U+9FA5) of ISO/IEC 10646-1:2000 IDS-UCS-Ext-A.txt CJK Unified Ideograph

  • 絵文字が開いてしまった「パンドラの箱」第7回--そして舞台はダブリンから東京へ

    地図が国際規格にふさわしくない理由 2009年4月21日、ここはアイルランドのダブリン・シティ大学です。ISO/IEC 10646を審議する第54回WG 2会議は、2日目の日程に入っていました。この日はいくつかの分科会に分かれテーマ別に審議が進められます。そのうちの一つ、Emojiアドホック会議では、GoogleAppleによって提案された絵文字の審議がおこなわれていました。 開催前は激しい対立が予想されていましたが、いざフタを開けるとGoogleAppleが一員であるアメリカ・ナショナルボディ(以下、ナショナルボディはNBと略)の大幅な妥協によって合意が成立していきます。残ったのは議長が後回しにしておいた「議論の余地のあるもの」だけになりました。 これは全部で3種類あります。まずは5文字の「日文化に依存したアイコン文字」です。どんな文字か確認してみましょう。 図1 日文化

    絵文字が開いてしまった「パンドラの箱」第7回--そして舞台はダブリンから東京へ
    Kanasansoft
    Kanasansoft 2010/02/05
    後半から急展開。
  • Emoji Symbols: Background Data

    Background data for Proposal for Encoding Emoji Symbols L2/09-027R Date: 2009-Feb-06 Authors: Markus Scherer, Mark Davis, Kat Momoi, Darick Tong (Google Inc.) Yasuo Kida, Peter Edberg (Apple Inc.) The carrier symbol images in this file point to images on other sites. The images are only for comparison and may change. See the chart legend for an explanation of the data presentation in this chart

  • 絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

    Unicodeが携帯電話の絵文字を収録へ 絵文字ってなに?そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな! 8割の女性は「恋人以外にも使う」』(RBB NAVI)なんていうニュースもありました。携帯電話の個人普及率が9割を上回る(平成20年内閣府消費動向調査)この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。 まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

    絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
  • ほら貝:文字コード

    <BODY BGCOLOR="#04CBCA" LINK="#00008B" VLINK="#403C3C"> <H1><FONT SIZE=5>文字コード問題を考える</FONT></H1> <BR>&nbsp; <BR> <HR> <BR> <DL><DL><DL><FONT FACE="MS明朝"> <DT><B><A HREF="revised.htm">◇</A> 主な変更履歴</B> <DD><BR> <DT><B><A HREF="show.htm">◇</A> 小は大をかねるか?</B> <DD><BR> <DT><B><A HREF="revised.htm">◇</A> 主な変更履歴</B>            Nov07 1998更新 <DD>&nbsp; <DT><B><A HREF="show.htm">◇</A> 小は大をかねるか?</B>         N

  • Unicodeで拡張子を偽装された実行ファイルの防御方法 - 葉っぱ日記

    「それ Unicode で」などで紹介されている、Unicode の U+202E (RIGHT-TO-LEFT OVERRIDE; RLO)を使って拡張子を偽装された exe ファイルの実行を抑止する方法を思いついた。 メモ帳を開いて、"**"と入力する(前後の引用符は不要)。 "*"と"*"の間にキャレット(カーソル)を移動させる 右クリックで「Unicode 制御文字の挿入」から「RLO Start to right-to-left override」「RLO Start of right-to-left override」を選択 Ctrl-A で全て選択、Ctrl-C でクリップボードにコピー。 ローカルセキュリティポリシーを開く 画面左側の「追加の規則」を右クリック 「新しいパスの規則」を選択 「パス」欄で Ctrl-V をして、メモ帳の内容を貼り付ける。 セキュリティレベルが「

    Unicodeで拡張子を偽装された実行ファイルの防御方法 - 葉っぱ日記
  • RLOの実験 | Okumura's Blog

    RIGHT-TO-LEFT OVERRIDE(U+202E,UTF-8: E2 80 AE)のMac OS Xでの実験: cd ~/Desktop touch `ruby -e 'print"S\xe2\x80\xaetxt.exe"'` これでS[RLO]txt.exeというファイルができる。デスクトップを見たら拡張子がtxtのように見える。 すでにこの偽装法を使ったウイルスはWinnyのネットワークで広まっているという(Winnyネットワークはやっぱり真っ黒,NTTコミュニケーションズの小山氏に聞く:ITpro)。右クリック→「プロパティ」(Mac OS Xでは「情報を見る」)で一番上の「のプロパティ」(Mac OS Xでは「の情報」)が逆になっているので見破れる。 [2007-04-22追記] スラッシュドット ジャパン | Winnyネットワークに広がるRLO利用の拡張子偽装手法

  • www.nutsecurity.com

    Make 12 monthly payments Pay 0% interest Start using the domain today. See details

    www.nutsecurity.com
  • それ Unicode で

    UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

  • UTF-8 エンコーディングの危険性 - WebOS Goodies

    的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。 例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです(昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

  • 1