タグ

unicodeに関するiakioのブックマーク (16)

  • Unicode | 未分類 | hydroculのメモ

    hydroculのメモ > 未分類 > Unicode Unicode このサイト内のUnicode関連記事一覧 2015/10/25 各プログラミング言語におけるUnicode拡張領域の取り扱い 各プログラミング言語におけるUnicode結合文字の取り扱い 各プログラミング言語におけるUnicodeエスケープの取り扱い Unicodeの仕様に基づいた大文字小文字を変換するには Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション Unicodeの大文字と小文字のまとめ PHPのmb_convert_kanaとUnicodeのNFKC正規化 “𠮟る” と “叱る” Unicodeのgrapheme cluster (書記素クラスタ) このサイトは筆者(hydrocul)の個人メモの集合です。すべてのページは永遠に未完成です。 未分類 Apache CSSのTips

  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • CVS log for ports/sysutils/screen/files/opt-cjkwidth

  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
  • IPAexフォントと異体字 - OpenOffice.org Users Group SNS

    2月26日に独立行政法人 情報処理推進機構(IPA)が新フォントIPAexフォント」のリリースを発表しました[1]。 このフォントの特長は、なんといっても異体字(Ideographic Variation)に対応していることです。文字コードの規格「JIS X 0213」には、2000年に制定された「JIS2000」と2004年に制定された「JIS2004」があり、「IPAexフォント」の変更履歴[2]を読んでみると「JIS0213:2004制定時に字体変更された文字の旧字体を異体字として収容」と書かれています。 では、具体的に異体字はどのようにすれば表示できるのでしょう。Wikipediaの「異体字セレクタ」ページ[3]によれば、OS、フォント、アプリケーションの対応が求められています。わたしが持つ環境では、Windows 7(RC版もうすぐ期限切れ)、メモ帳が対応しているようです。そし

    iakio
    iakio 2010/03/20
    異体字セレクタ
  • 絵文字が開いてしまった「パンドラの箱」第6回--Google・Apple提案とそのシナリオ

    WG 2ダブリン会議に持ち込まれた絵文字の提案 2009年4月21日火曜日、ここはイギリスのお隣、アイルランドの首都ダブリン郊外です。広大なキャンパスをかまえるダブリン・シティ大学の一画では、前日から11カ国のナショナルボディ(以下、NB)と2つの組織のリエゾンメンバー(連絡担当会員)が集まって、第54回WG 2会議が開かれていました。 大学の正門から真っ直ぐに延びた広い道を100メートルばかり行った突き当たりに、巨大なる工学部校舎が建っています。その建物の奥深く、2階にあるミーティングルームでは、先ほどから重苦しい空気が立ちこめていました。 ここで開かれていたのはWG 2の会議ではなく、特定のテーマを扱うアドホック会議です。「Ad-Hoc Committee on Emoji Encoding」(以下、Emojiアドホック会議)。──そう、2月のUTC会議を無事に通過したGoogle

    絵文字が開いてしまった「パンドラの箱」第6回--Google・Apple提案とそのシナリオ
    iakio
    iakio 2010/01/29
    面白い
  • Ring

    Ringとは、リクルートグループ会社従業員を対象にした新規事業提案制度です。 『ゼクシィ』『R25』『スタディサプリ』など数多くの事業を生み出してきた新規事業制度は、 1982年に「RING」としてスタートし、1990年「New RING」と改定、そして2018年「Ring」にリニューアルしました。 リクルートグループの従業員は誰でも自由に参加することができ、 テーマはリクルートの既存領域に限らず、ありとあらゆる領域が対象です。 リクルートにとって、Ringとは「新しい価値の創造」というグループ経営理念を体現する場であり、 従業員が自分の意思で新規事業を提案・実現できる機会です。 Ringフロー その後の事業開発手法 Ringを通過した案件は、事業化を検討する権利を得て、事業開発を行います。 さまざまな事業開発の手法がありますが、例えば既存領域での事業開発の場合は、 担当事業会社内で予算や

  • http://www.cl.cam.ac.uk/~mgk25/ucs/wcwidth.c

  • glibc の wcwidth() の「曖昧な文字幅」についての動作 - diary of a madman

    glibc の wcwidth() の動作を自分の手できちんと検証したことがなかったので実験してみた。対象バージョンは Debian lenny に含まれていた 2.7-18。 実験に使ったのは以下のプログラム。 #define _XOPEN_SOURCE #include <stdio.h> #include <locale.h> #include <wchar.h> void print_wcwidth(wchar_t c) { printf("wcwidth('%lc') == %d\n", c, wcwidth(c)); } int main() { setlocale(LC_CTYPE, ""); print_wcwidth(0x41); print_wcwidth(0x3b1); print_wcwidth(0x3042); return 0; } これをコンパイルして、UTF

    glibc の wcwidth() の「曖昧な文字幅」についての動作 - diary of a madman
  • 1億人を代表して、皆さんにお願いします。 - もじのなまえ

    日はWG 2東京会議の2日目、午前11時から昼をはさんで午後4時まで、Emoji Ad-Hoc会議が開催され、その場でぼくたちが提出した「A Proposal to Revise a Part of Emoticons in PDAM 8」(N3711)が審議されました。 その冒頭で、趣旨説明をしたわけですが、その草稿を公開します。これは開会直後に趣旨説明が必要であることが分かり、会議の最中に即席で書いたものです。内容的にはN3711のサマリーになっています。 来なら英語でスピーチするところですが、ぼくにはとても無理。そこで日ナショナルボディのご好意により、関口委員長自ら通訳してくださいました。まだるっこしい日語の話を辛抱強く聞いてくださった各国ナショナルボディの諸氏にも深く感謝。 私達は日の携帯電話ユーザーとして、UCSが絵文字を収録することを支持します。 それは日での絵文

    1億人を代表して、皆さんにお願いします。 - もじのなまえ
  • 絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味

    じつはコメントを送っていたNTTドコモ 最初に前回のおさらいをしておきましょう。スタート当初の携帯電話の絵文字には、キャリア間でメールのやり取りの中で文字化けしてしまう欠点があったこと、それを解決する仕組みをキャリア各社が作ったものの、その場しのぎの欠点の多いものであったこと、そして絵文字のUnicode符号化というのはそうした欠点を一挙に解決するはずであること。ついでにGoogle絵文字のUnicode符号化を進めることで、キャリア各社は今まで自分たちが育ててきた絵文字の主導権を奪われてしまうということも。 それから前回の最後では、キャリア各社に対してGoogleの提案についてどう思うか、パブリックレビューに参加する意向があるかを聞いてみました。そこでの回答は、各社そろって消極的と受け取れるものでした。 ところが前回の掲載後に、NTTドコモがGoogle絵文字メーリングリストに投稿し

    絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味
  • 絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

    Unicodeが携帯電話の絵文字を収録へ 絵文字ってなに?そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな! 8割の女性は「恋人以外にも使う」』(RBB NAVI)なんていうニュースもありました。携帯電話の個人普及率が9割を上回る(平成20年内閣府消費動向調査)この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。 まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

    絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
  • GNU Screen - Bugs: bug #16666, [PATCH] Support for UAX#11 East... [Savannah]

  • screen.git - screen

  • vim set ambiwidth=double « ku

    HTMLとかを編集しているときに、中に☆とか※とか入っているとvimが半角なのか全角なのか扱いに困ってそれより右側の文字でカーソルの位置と表示が一致しなくなったりする。そんなに困らないけど煩わしいなーと思っていたのですが Emacs22 + UTF-8 における文脈依存な文字幅の問題についてのコメントで vimでは、set ambiwidth=double でいけませんか? と書かれているのを見つけてやってみたら※問題解決しました。うれしいです。

  • 続々・rxvt-unicode ×問題再び, etc.

    _ [comp] 続々・rxvt-unicode ×問題再び いろいろ腑に落ちないけど、locale のほうをいじってみることにした。てか、そもそも locale って何からどうやって生成されてるんだ? ということで /usr/sbin/locale-gen を見てみる。これ自体シェルスクリプトで、実体の /usr/bin/localedef に渡す引数とかをいろいろやってるようだ。locale.gen(5) より、ja_JP.UTF-8 だと /usr/share/i18n/locales/ja_JP と /usr/share/i18n/charmaps/UTF-8.gz が locale の基になるようだ。で、/usr/share/i18n/charmaps/UTF-8.gz を見てみると、 % Character width according to Unicode 3.2. % -

  • 1