タグ

Unicodeに関するmakoto15のブックマーク (79)

  • 元Apple技術者、リー・コリンズ氏がダライ・ラマ法王の前で語った「世界中の文字と言葉への思い」 « ハーバー・ビジネス・オンライン

    私たちが、パソコンやスマホを買ったその日から、今、世界で使われているほとんどの文字を使うことができるのは、世界標準の文字コード「ユニコード」の存在に拠る。 また、現在、インターネットのURL、FacebookやTwitterなど、ほとんどすべてのアプリやデバイスは文字入力に際し、「ユニコード」という世界統一規格を採用している。 そんな我々のネット生活と切っても切れない「ユニコード」の生みの親の一人、リー・コリンズ氏(元アップル社)が来日し、4月5日、東京で開催されていた、ダライ・ラマ法王と仏教研究の第一線で活躍する研究者らとの対話イベント「GOMANG ACADEMY OPEN SYMPOSIUM ~伝法の未来を考える~」(主催:一般社団法人 文殊師利大乗仏教会)に出席し、来日中のダライ・ラマ14世にこれまでのユニコードの取り組みについて紹介した。

    元Apple技術者、リー・コリンズ氏がダライ・ラマ法王の前で語った「世界中の文字と言葉への思い」 « ハーバー・ビジネス・オンライン
  • 濁点のトラブルに遭遇

    最近あったちょっとしたトラブルについてちょっとメモ代わりに。epubはおおざっぱに言えばxhtmlzipで固めたようなものなので、各xhtmlファイルには当然ヘッダ部分があり、タイトルがあるわけなのですが、このタイトル部分に含まれている文字の濁点の部分が「非濁点親文字」 +「゛」の合字になっており、一部のビューアで合字をきちんと表示できないため、問題となりました。以前からFinder内で入力された文字がOS XのUnicode正規化処理によって変換される問題があるという話は知っていたのですが、実際にトラブルに遭遇したのは初めてでした。Unicode正規化処理に関しましてはものかの先生が詳しく解説してますのでこちらの記事を。 OS Xの処理によって濁点が分解される ざっくり何が起きるのかというと、Finderでファイル名等を入力すると、入力時に例えば「ダ」が「タ」+「゛」に分解されて収納さ

    濁点のトラブルに遭遇
  • 2014.12.10 アップデート「漢字データベースとユニコード」 - JEPA

    Unicodeと漢字関連の最近の動きをご紹介するセミナーです。「文字フォント、文字コードはICTの米」ですので、電子出版関係者、漢字、辞書関係者は必見。 ■概要と講師 ●はじめに 小林 龍生 氏 (JEPAフェロー、CITPC理事)  講師紹介、互換漢字とSVS(Stabilized Variation Sequence)など

  • いま、活版印刷が見直される理由とは? - TYPE

    たかがメガネ、されどメガネ突然ですが、メガネ、お使いですか? はい、あの眼鏡です。私は出かける時はコンタクトなんですが、家ではもっぱらメガネ愛用者ですね。すごく目が悪いので、寝ている時以外はずっとしています。 何個か持っているのですが、いつも使うのは大体決まってます。ちょっと赤っぽい縁の軽量メガネ。黒縁と迷ったのですが、私の場合赤にして正解でした。なんとなくしっくりきてお気に入りです。 皆さんメガネを買うときのこだわりってありますか?私はかけてて痛くならない素材がいいですね。なんせずっとかけてるので、重いとしんどいです。あとはフレームの大きさ。あまり小さいとおかしいし、大きいと重苦しく見えますよね。 メガネ屋さんに行くとあまりに沢山の種類があるので気が遠くなったことありません?私はあります。もうどれでもいい、なんて思っちゃう。でもメガネって、ほぼ体の一部になるものだから、慎重に選ばないとあ

    いま、活版印刷が見直される理由とは? - TYPE
  • Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita

    Stringの比較は正規化をかけた上で行われる Swiftの文字列比較は,Unicode正規化をかけた上で行われます。 たとえば,次の例をご覧ください。 let gaC = "\u{304C}" // 「が」の結合形 let gaD = "\u{304B}\u{3099}" // 「が」の分解形 // NSString としての文字数(UTF16での文字数)は異なる (gaC as NSString).length // => 1 (gaD as NSString).length // => 2 // String としての比較 gaC == gaD // => true (!!) これは,こちらのサイトによると, Depending on your requirements, this may or may not be what you want, but it is certainl

    Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita
  • SwiftでのUnicode正規化問題 続編:HFS+との整合性 - Qiita

    前回の記事の続編です。 HFS+ における Modified NFD Apple が OS X でファイルシステムとして採用しているHFS+では,ファイル名を原則としてNFDで分解して保持するようになっています。 2種類の「が」は分解形で統一される たとえば,ユーザが が.txt(「が」はU+304Cの1文字)というファイル名でファイルを保存しても,ファイルシステム上は が.txt(「が」は U+304B U+3099 の合成文字)として保存されます。 実際,が.txt(「が」はU+304Cの1文字)としてファイルを保存した後,Finderでファイル名変更モードに入り,「が」という文字をコピーすると,U+304C ではなく,U+304B U+3099 という2文字がコピーされるのが確認できます。 → か(U+304B) + 結合用濁点(U+3099) がコピーされる CJK互換漢字を置き

    SwiftでのUnicode正規化問題 続編:HFS+との整合性 - Qiita
  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • Unicode - perl+javascript - にプログラムでよく使われる英語の記号の読み方を調べさせる : 404 Blog Not Found

    2014年03月29日00:00 カテゴリTipsLightweight Languages Unicode - perl+javascript - にプログラムでよく使われる英語の記号の読み方を調べさせる プログラマのための 文字コード技術入門 矢野啓介 プログラマーたるもの、プログラムに出来ることを自らやるべからず。 挑戦者求む!【英語英語でなんて読むか知ってる? by @masuidrive 増井 雄一郎│CodeIQ プログラムでよく使われる英語の記号の読み方知っていますか? というわけでリハビリをかねて。 dankogai/js-charnames 使い方 git cloneしてmakeしてください。 charnames.jsというファイルが出来るので、あとはこんな感じで使って下さい。 Charnames['']=''; Unicode 6.1的に、というのか生成する時に使った

    Unicode - perl+javascript - にプログラムでよく使われる英語の記号の読み方を調べさせる : 404 Blog Not Found
  • Unicode 7、フィードバック求む

    Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. 2014年第3四半期でのリリースが予定されている「Unicode 7.0」に関してコメントやフィードバックを求める呼びかけが「Feedback requested for Unicode 7.0」において実施された。2014年5月に実施されるUnicode Technical Committeeの会議で議論するためコメントやフィードバックの締め切りを4月28日にすると説明がある。 漸進的な改善がメインだったUnicode 6.2やUnicode 6.3と異なり、「Unicode 7.

  • 点字ユニコード一覧表

    上の4行2801-283Fは八点点字を六点点字に見えるようにわざと下を見えなくしてあります。 Braille6フォントをインストールしたもの。

  • Unicodeによる点字記号の世界的統一 | CiNii Research

    JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログ ムーンショット型研究開発事業

  • unicode-rangeを使ってArialにSegoe UI Symbolを混ぜる - Weblog - hail2u.net

    TwitterでUnicode6.0絵文字を表示させるためのユーザースタイルシートで快適になった。これで大体は良さそうなんだけど、unicode-rangeを使ってArialにSegoe UI Symbolを混ぜちゃうともっと安定して良さそうな気がする。 @font-face { font-family: "Arial"; src: local("Segoe UI Symbol"); unicode-range: U+20E3-2B55, U+1F004-1F6C0; } 絵文字のコードポイントはUnicode6.0の携帯電話の絵文字の一覧から。アバウトに範囲指定してるので、元々Arialが持っている絵文字他もかなりSegoe UI Symbolに変わる。当はもっと細かく指定した方が良いだろうけど面倒なのでまとめてガッと指定した。 @font-face { font-family: "T

  • WindowsのChromeでのUnicode6.0絵文字

    Windowsの少なくともChrome 30までではUnicode6.0の絵文字がだいたい表示されず豆腐(□みたいなの)に化ける。理由はDirectWriteじゃなくてFontLinkに対応してないとか、デフォルトのフォールバックでUnicode6.0絵文字を含むフォントが指定されていないとかそんな感じなんじゃないかと憶測している。体がDirectWriteに対応するまでどうにかなるとは思えないのでユーザースタイルシートでどうにかした。 Unicode 6.0絵文字はSegoe UI Symbolに全部含まれるので、これが使われるようにユーザースタイルシートを書いてやる。Twitterを例にすると、 .tw-tweet { font-family: "Arial", "Segoe UI Symbol", sans-serif; } で、🍣とか🍶とかがちゃんと表示されるようになる。 S

    WindowsのChromeでのUnicode6.0絵文字
  • Unicode正規化 用語の混乱について 第4.2版 – ものかの

    初版 2010/4/5 第2版 2013/5/10 誤解を修正。全面的に書き直し。 第3版 2014/7/13 なるべく分かりやすく全面的に書き直し。 第4版 2015/5/20 さらに分かりやすく全面的に書き直し。 第4.1版 2015/5/27 まだ分かりにくいと不評なので書き直し。 第4.2版 2015/5/27 さらに分かりやすく調整。 Unicode正規化の考え方自体はとてもシンプルです。でも、よく知ろうとしていろいろ調べると、用語がハイコンテキストすぎて、混乱してワケがわからなくなります。日で一般的に見られる用語を図にしてみましょう。 混乱するのはどこだと思いますか? “合成済み文字” と “合成文字” の2か所です。どちらも言葉として同じ意味です。それなのに、異なった状態を表す用語として無理矢理に使い分けようとしています。ここから、以下のような奇妙な文章ができあがります。

    Unicode正規化 用語の混乱について 第4.2版 – ものかの
    makoto15
    makoto15 2013/05/12
    []
  • Unicode文字コード表

    ブラウザでの文字コードの表示を確認するためのコード表です。 文字が正しく表示されているかどうかは、閲覧環境のフォントに依存します。花園明朝、IPAmj明朝、源ノ角はPCにインストールされている必要があります。 フォントを指定していても、フォールバックで別フォントで表示されている場合があります。 JIS X 0208(第1,2水準漢字含む) JIS X 0213(第3,4水準漢字含む) Adobe-Japan1-6(UniJISX02132004-UTF32マッピング)固有。上段の数字はcidコード。カッコ内は0-6の範囲。 (JIS-UCSのコード変換はこちらのデータを利用させていただきました。) (IPAフォントのWebフォントは、ボイジャー社のBinBサイトで配布されているものを利用させていただいています。)

    Unicode文字コード表
  • Perl Unicode Cookbook: The Standard Preamble

    Perl Unicode Cookbook: The Standard Preamble Apr 2, 2012 by Tom Christiansen Editor’s note: Perl guru Tom Christiansen created and maintains a list of 44 recipes for working with Unicode in Perl 5. This is the first recipe in the series. ℞ 0: Standard preamble Unless otherwise noted, all examples in this cookbook require this standard preamble to work correctly, with the #! adjusted to work on you

    Perl Unicode Cookbook: The Standard Preamble
  • Unicode Character 'LOVE HOTEL' (U+1F3E9)

    Unicode Character 'LOVE HOTEL' (U+1F3E9) Browser Test Page Outline (as SVG file) Fonts that support U+1F3E9 Unicode Data Name LOVE HOTEL Block Miscellaneous Symbols and Pictographs Category Symbol, Other [So] Combine 0 BIDI Other Neutrals [ON] Mirror N Version Unicode 6.0.0 (October 2010) Encodings Emoji :love_hotel: HTML Entity (decimal) 🏩 HTML Entity (hex) 🏩 How to type in Micros

  • マイクロソフトのIVS対応 - ちくちく日記

    先日、マイクロソフトで「文字コードと異体字とUnicode IVS 〜情報システムにおける日語処理〜」というセミナーを受けてきた。 「文字符号化方式の正しい理解、文字コードの動向、そしてこれらを扱う上でどのような注意が必要なのかなど、IT 管理者、開発者に必要な基礎知識の理解を目指します。話題の IVS、IVD についてもご説明いたします。」 と、いうことで期待していったんだけど、さすがにこれだけの内容を2時間で話すというのは無理があったらしく、文字コードの概要についてダイジェストでお話、といった少々物足りない内容だった。 内容自体は物足りなくて、レポートにまとめるほどでもなかったんだけど、セミナー最後でのQ&AでマイクロソフトのIVS対応などについて触れられていたので、その部分だけメモがわりに。 ・IVSを使える環境でのIMEはどうあるべきか? IVSによって、様々な異体字へのアクセス

    マイクロソフトのIVS対応 - ちくちく日記
  • CJK Unified/Compatibility Ideographs in Unicode Version 6.1

    CJK Type Blog CJK Fonts, Character Sets & Encodings. All CJK. #AllOfTheTime. Unicode Version 6.1 was released on 01/31/2012, and now includes 74,617 CJK Unified Ideographs, along with 1,002 CJK Compatibility Ideographs. 732 characters were added, and there are now a staggering 110,116 characters in the standard. Speaking of staggering, as Unicode grows, it becomes more important to keep track of w

  • Localization World Unicode workshop, June 2012, Paris