[B! Unicode] [2ページ] makoto15のブックマーク

元Apple技術者、リー・コリンズ氏がダライ・ラマ法王の前で語った「世界中の文字と言葉への思い」 « ハーバー・ビジネス・オンライン

私たちが、パソコンやスマホを買ったその日から、今、世界で使われているほとんどの文字を使うことができるのは、世界標準の文字コード「ユニコード」の存在に拠る。　また、現在、インターネットのURL、FacebookやTwitterなど、ほとんどすべてのアプリやデバイスは文字入力に際し、「ユニコード」という世界統一規格を採用している。そんな我々のネット生活と切っても切れない「ユニコード」の生みの親の一人、リー・コリンズ氏（元アップル社）が来日し、4月5日、東京で開催されていた、ダライ・ラマ法王と仏教研究の第一線で活躍する研究者らとの対話イベント「GOMANG ACADEMY OPEN SYMPOSIUM　～伝法の未来を考える～」（主催：一般社団法人　文殊師利大乗仏教会）に出席し、来日中のダライ・ラマ14世にこれまでのユニコードの取り組みについて紹介した。

makoto15 2015/04/13

unicode

リンク

濁点のトラブルに遭遇

最近あったちょっとしたトラブルについてちょっとメモ代わりに。epubはおおざっぱに言えばxhtmlをzipで固めたようなものなので、各xhtmlファイルには当然ヘッダ部分があり、タイトルがあるわけなのですが、このタイトル部分に含まれている文字の濁点の部分が「非濁点親文字」＋「゛」の合字になっており、一部のビューアで合字をきちんと表示できないため、問題となりました。以前からFinder内で入力された文字がOS XのUnicode正規化処理によって変換される問題があるという話は知っていたのですが、実際にトラブルに遭遇したのは初めてでした。Unicode正規化処理に関しましてはものかの先生が詳しく解説してますのでこちらの記事を。 OS Xの処理によって濁点が分解されるざっくり何が起きるのかというと、Finderでファイル名等を入力すると、入力時に例えば「ダ」が「タ」＋「゛」に分解されて収納さ

makoto15 2015/02/10

unicode

リンク

2014.12.10 アップデート「漢字データベースとユニコード」 - JEPA

Unicodeと漢字関連の最近の動きをご紹介するセミナーです。「文字フォント、文字コードはICTの米」ですので、電子出版関係者、漢字、辞書関係者は必見。 ■概要と講師 ●はじめに　小林龍生氏 (JEPAフェロー、CIT PC理事) 　講師紹介、互換漢字とSVS(Stabilized Variation Sequence)など

makoto15 2015/01/28

リンク

いま、活版印刷が見直される理由とは？ - TYPE

たかがメガネ、されどメガネ突然ですが、メガネ、お使いですか？はい、あの眼鏡です。私は出かける時はコンタクトなんですが、家ではもっぱらメガネ愛用者ですね。すごく目が悪いので、寝ている時以外はずっとしています。何個か持っているのですが、いつも使うのは大体決まってます。ちょっと赤っぽい縁の軽量メガネ。黒縁と迷ったのですが、私の場合赤にして正解でした。なんとなくしっくりきてお気に入りです。皆さんメガネを買うときのこだわりってありますか？私はかけてて痛くならない素材がいいですね。なんせずっとかけてるので、重いとしんどいです。あとはフレームの大きさ。あまり小さいとおかしいし、大きいと重苦しく見えますよね。メガネ屋さんに行くとあまりに沢山の種類があるので気が遠くなったことありません？私はあります。もうどれでもいい、なんて思っちゃう。でもメガネって、ほぼ体の一部になるものだから、慎重に選ばないとあ

makoto15 2014/10/30

unicode

リンク

Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita

Stringの比較は正規化をかけた上で行われる Swiftの文字列比較は，Unicode正規化をかけた上で行われます。たとえば，次の例をご覧ください。 let gaC = "\u{304C}" // 「が」の結合形 let gaD = "\u{304B}\u{3099}" // 「が」の分解形 // NSString としての文字数（UTF16での文字数）は異なる (gaC as NSString).length // => 1 (gaD as NSString).length // => 2 // String としての比較 gaC == gaD // => true (!!) これは，こちらのサイトによると， Depending on your requirements, this may or may not be what you want, but it is certainl

makoto15 2014/10/28

unicode

リンク

SwiftでのUnicode正規化問題続編：HFS+との整合性 - Qiita

前回の記事の続編です。 HFS+ における Modified NFD Apple が OS X でファイルシステムとして採用しているHFS+では，ファイル名を原則としてNFDで分解して保持するようになっています。 2種類の「が」は分解形で統一されるたとえば，ユーザがが.txt（「が」はU+304Cの1文字）というファイル名でファイルを保存しても，ファイルシステム上はが.txt（「が」は U+304B U+3099 の合成文字）として保存されます。実際，が.txt（「が」はU+304Cの1文字）としてファイルを保存した後，Finderでファイル名変更モードに入り，「が」という文字をコピーすると，U+304C ではなく，U+304B U+3099 という2文字がコピーされるのが確認できます。 → か(U+304B) + 結合用濁点(U+3099) がコピーされる CJK互換漢字を置き

makoto15 2014/10/28

unicode

リンク

文字コード地獄秘話第1話：Unicodeにおける全角・半角 - ALBERT Engineering Blog

ごあいさつ皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。固定観念を捨てよう「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。しか

makoto15 2014/04/22

Unicode

リンク

Unicode - perl+javascript - にプログラムでよく使われる英語の記号の読み方を調べさせる : 404 Blog Not Found

2014年03月29日00:00 カテゴリTipsLightweight Languages Unicode - perl+javascript - にプログラムでよく使われる英語の記号の読み方を調べさせるプログラマのための文字コード技術入門矢野啓介プログラマーたるもの、プログラムに出来ることを自らやるべからず。挑戦者求む！【英語】英語でなんて読むか知ってる？ by @masuidrive 増井雄一郎│CodeIQ プログラムでよく使われる英語の記号の読み方知っていますか？というわけでリハビリをかねて。 dankogai/js-charnames 使い方 git cloneしてmakeしてください。 charnames.jsというファイルが出来るので、あとはこんな感じで使って下さい。 Charnames['']=''; Unicode 6.1的に、というのか生成する時に使った

makoto15 2014/03/29

perl
unicode

リンク

Unicode 7、フィードバック求む

Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. 2014年第3四半期でのリリースが予定されている「Unicode 7.0」に関してコメントやフィードバックを求める呼びかけが「Feedback requested for Unicode 7.0」において実施された。2014年5月に実施されるUnicode Technical Committeeの会議で議論するためコメントやフィードバックの締め切りを4月28日にすると説明がある。漸進的な改善がメインだったUnicode 6.2やUnicode 6.3と異なり、「Unicode 7.

makoto15 2014/02/15

Unicode

リンク

点字ユニコード一覧表

上の4行2801-283Fは八点点字を六点点字に見えるようにわざと下を見えなくしてあります。 Braille6フォントをインストールしたもの。

makoto15 2013/08/26

unicode

リンク

Unicodeによる点字記号の世界的統一 | CiNii Research

JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログムーンショット型研究開発事業

makoto15 2013/08/26

unicode

リンク

unicode-rangeを使ってArialにSegoe UI Symbolを混ぜる - Weblog - hail2u.net

TwitterでUnicode6.0絵文字を表示させるためのユーザースタイルシートで快適になった。これで大体は良さそうなんだけど、unicode-rangeを使ってArialにSegoe UI Symbolを混ぜちゃうともっと安定して良さそうな気がする。 @font-face { font-family: "Arial"; src: local("Segoe UI Symbol"); unicode-range: U+20E3-2B55, U+1F004-1F6C0; } 絵文字のコードポイントはUnicode6.0の携帯電話の絵文字の一覧から。アバウトに範囲指定してるので、元々Arialが持っている絵文字他もかなりSegoe UI Symbolに変わる。本当はもっと細かく指定した方が良いだろうけど面倒なのでまとめてガッと指定した。 @font-face { font-family: "T

makoto15 2013/08/01

unicode

リンク

WindowsのChromeでのUnicode6.0絵文字

Windowsの少なくともChrome 30までではUnicode6.0の絵文字がだいたい表示されず豆腐(□みたいなの)に化ける。理由はDirectWriteじゃなくてFontLinkに対応してないとか、デフォルトのフォールバックでUnicode6.0絵文字を含むフォントが指定されていないとかそんな感じなんじゃないかと憶測している。本体がDirectWriteに対応するまでどうにかなるとは思えないのでユーザースタイルシートでどうにかした。 Unicode 6.0絵文字はSegoe UI Symbolに全部含まれるので、これが使われるようにユーザースタイルシートを書いてやる。Twitterを例にすると、 .tw-tweet { font-family: "Arial", "Segoe UI Symbol", sans-serif; } で、🍣とか🍶とかがちゃんと表示されるようになる。 S

makoto15 2013/07/22

unicode

リンク

Unicode正規化用語の混乱について第4.2版 – ものかの

初版　2010/4/5 第2版　2013/5/10　誤解を修正。全面的に書き直し。第3版　2014/7/13　なるべく分かりやすく全面的に書き直し。第4版　2015/5/20　さらに分かりやすく全面的に書き直し。第4.1版　2015/5/27　まだ分かりにくいと不評なので書き直し。第4.2版　2015/5/27　さらに分かりやすく調整。 Unicode正規化の考え方自体はとてもシンプルです。でも、よく知ろうとしていろいろ調べると、用語がハイコンテキストすぎて、混乱してワケがわからなくなります。日本で一般的に見られる用語を図にしてみましょう。混乱するのはどこだと思いますか？ “合成済み文字” と “合成文字” の２か所です。どちらも言葉として同じ意味です。それなのに、異なった状態を表す用語として無理矢理に使い分けようとしています。ここから、以下のような奇妙な文章ができあがります。

makoto15 2013/05/12

[]

リンク

Unicode文字コード表

ブラウザでの文字コードの表示を確認するためのコード表です。文字が正しく表示されているかどうかは、閲覧環境のフォントに依存します。花園明朝、IPAmj明朝、源ノ角はPCにインストールされている必要があります。フォントを指定していても、フォールバックで別フォントで表示されている場合があります。 JIS X 0208(第1,2水準漢字含む) JIS X 0213(第3,4水準漢字含む) Adobe-Japan1-6(UniJISX02132004-UTF32マッピング)固有。上段の数字はcidコード。カッコ内は0-6の範囲。 (JIS-UCSのコード変換はこちらのデータを利用させていただきました。) (IPA フォントのWebフォントは、ボイジャー社のBinBサイトで配布されているものを利用させていただいています。)

makoto15 2013/01/28

リンク

Perl Unicode Cookbook: The Standard Preamble

Perl Unicode Cookbook: The Standard Preamble Apr 2, 2012 by Tom Christiansen Editor’s note: Perl guru Tom Christiansen created and maintains a list of 44 recipes for working with Unicode in Perl 5. This is the first recipe in the series. ℞ 0: Standard preamble Unless otherwise noted, all examples in this cookbook require this standard preamble to work correctly, with the #! adjusted to work on you

makoto15 2013/01/27

リンク

Unicode Character 'LOVE HOTEL' (U+1F3E9)

Unicode Character 'LOVE HOTEL' (U+1F3E9) Browser Test Page Outline (as SVG file) Fonts that support U+1F3E9 Unicode Data Name LOVE HOTEL Block Miscellaneous Symbols and Pictographs Category Symbol, Other [So] Combine 0 BIDI Other Neutrals [ON] Mirror N Version Unicode 6.0.0 (October 2010) Encodings Emoji :love_hotel: HTML Entity (decimal) 🏩 HTML Entity (hex) 🏩 How to type in Micros

makoto15 2012/04/14

unicode

リンク

マイクロソフトのIVS対応 - ちくちく日記

先日、マイクロソフトで「文字コードと異体字とUnicode IVS 〜情報システムにおける日本語処理〜」というセミナーを受けてきた。「文字符号化方式の正しい理解、文字コードの動向、そしてこれらを扱う上でどのような注意が必要なのかなど、IT 管理者、開発者に必要な基礎知識の理解を目指します。話題の IVS、IVD についてもご説明いたします。」と、いうことで期待していったんだけど、さすがにこれだけの内容を2時間で話すというのは無理があったらしく、文字コードの概要についてダイジェストでお話、といった少々物足りない内容だった。内容自体は物足りなくて、レポートにまとめるほどでもなかったんだけど、セミナー最後でのQ&AでマイクロソフトのIVS対応などについて触れられていたので、その部分だけメモがわりに。・IVSを使える環境でのIMEはどうあるべきか？ IVSによって、様々な異体字へのアクセス

makoto15 2012/02/27

リンク

CJK Unified/Compatibility Ideographs in Unicode Version 6.1

CJK Type Blog CJK Fonts, Character Sets & Encodings. All CJK. #AllOfTheTime. Unicode Version 6.1 was released on 01/31/2012, and now includes 74,617 CJK Unified Ideographs, along with 1,002 CJK Compatibility Ideographs. 732 characters were added, and there are now a staggering 110,116 characters in the standard. Speaking of staggering, as Unicode grows, it becomes more important to keep track of w