タグ

unicodeに関するatm_09_tdのブックマーク (23)

  • Unicode 12.0正式版が登場。日本語では小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が追加。新元号が発表され次第、次の12.1で新元号キャラクタを追加

    Unicode 12では4つの言語(script)、554種類の文字が追加されました。これによりUnicodeに収録されている言語は150、文字は13万7292種類になりました。 追加された文字には日語の文字が7種類、小さな文字としての「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が含まれています(通常の大きさの文字は以前からありました)。これらは古い文書を記述するために使われるとされています。 そのほか、現在のイラン南西部に存在したアケメネス朝で使われていたアラム語のElymaic文字。南インドのサンスクリット語、カンナダ語で使われていたNandinagari文字。ラオス、タイ、ベトナム、フランス、オーストラリア、カナダ、米国などで使われていた現代White Hmong語、Green Hmong語のNyiakeng Puachue Hmong文字。インド、ミャンマー、ブータンの現代Wanc

    Unicode 12.0正式版が登場。日本語では小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が追加。新元号が発表され次第、次の12.1で新元号キャラクタを追加
  • Unicodeがどんな風にUTF-8に割当てられているか - 備忘帳 - オレンジ工房

    (2018-01-12 追記)全体的に文章調整など。 前提 Unicodeというコードは、特にコンピュータ用とは限りません。 Unicodeの「U+FFFF」というのは16進数なのでコンピュータ用かと思いがちですし、実際コンピュータで扱うことが多いですが、イコール(いわゆる)文字コードではありません。 UTF-8とは、Unicode文字をバイト列としてどう表現するか、という体系です。昨今のインターネットはUTF-8が使われていることが多いです。 UTF-16などは、Unicodeを別の方法で表現しています。Windowsの中はUTF-16らしいです。Javasriptの中も。 [ ページ先頭へ ] どのように割り当てられているか Unicodeのどの範囲がUTF-8のどの範囲に割り当てられているか、の一覧は以下の通り。 unicode UTF-8

  • 「文字数」ってなぁに?〜String, NSString, Unicodeの基本〜

    第5回スタートアップiOS勉強会( http://connpass.com/event/43260/ )での発表資料です。 ## 参考リンク Unicode のサロゲートペアとは何か - ひだまりソケットは壊れない http://vividcode.hatenablog.com/entry/unicode/surrogate-pair なぜSwiftの文字列APIは難しいのか | プログラミング | POSTD http://postd.cc/why-is-swifts-string-api-so-hard/ Unicodeとは? その歴史と進化、開発者向け基礎知識 - Build Insider http://www.buildinsider.net/language/csharpunicode/01 Unicodeと、C#での文字列の扱い - Build Insider http://

    「文字数」ってなぁに?〜String, NSString, Unicodeの基本〜
  • Shift_JIS文化からUTF-8への移行ガイド - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    Shift_JIS文化からUTF-8への移行ガイド - Qiita
  • Unicode の正規化でハマった話 - satosystemsの日記

    まずは以下のコードを見てください。 import java.io.File import java.io.FileOutputStream val file1 = new File("\u30C9ラえもん.txt") val fos1 = new FileOutputStream(file1) fos1.write("ぼく、ドラえもん。".getBytes("UTF-8")) fos1.close() val file2 = new File("\u30C8\u3099ラえもん.txt") val fos2 = new FileOutputStream(file2) fos2.write("ぼく、ドラえもん!".getBytes("UTF-8")) fos2.close() エントリとは関係ないですが、こうしたちょっとしたコードを書くのに Scala は非常に良いですね。 さて、「ドラえ

    Unicode の正規化でハマった話 - satosystemsの日記
  • Unicodeを斬りたい

    ※2014/4/17 記事の内容に関していくつか訂正させていただきました。 ご指摘いただいた皆様ありがとうございました。 誤字脱字を修正しました。 ソースコードの間違いを修正しました。 BOMの記述を分かりやすい表現に修正しました。 合字に関する記載を追記いたしました。 こんにちは。 Yahoo! JAPANで通知プラットフォームの開発をおこなっています佐々木海(@Lewuathe)と申します。 普段は全社向けのPush通知プラットフォームやメール配信プラットフォームの開発、保守をしています。通知というのはPush通知にしろ、メール配信にしろ基的には「テキストデータ」を送ることになります。プラットフォーム内ではこれらのテキストに対してさまざまな処理をかけることになるのですが、さすが日語といったところでしょうか、一筋縄ではいかない部分が出てきました。具体的にはUTF-8でエンコーディング

    Unicodeを斬りたい
  • JavaScript has a Unicode problem · Mathias Bynens

    The way JavaScript handles Unicode is… surprising, to say the least. This write-up explains the pain points associated with Unicode in JavaScript, provides solutions for common problems, and explains how the ECMAScript 6 standard improves the situation. Unicode basics Before we take a closer look at JavaScript, let’s make sure we’re all on the same page when it comes to Unicode. It’s easiest to th

  • [連載:正規表現] Unicode文字プロパティについて (3) 文字プロパティとは|TechRacho by BPS株式会社

    [連載1回目][連載2回目] こんにちは、hachi8833です。調べて書くたびに発見があるのはいいのですが、毎度記事があふれ気味ですみません。 連載3回目は、Zの一族の解説に進む前に、これまでにあふれた記事を先に整理することにしました。また、量が多すぎて前回の最後の記事が埋もれ気味だったので今回の冒頭に再録しました。 再録: [[:alnum:]]およびPOSIXブラケットについて 最近一部で話題になった[[:alnum:]]ですが、これ自体はUnicode文字プロパティでは「ありません」。見てのとおりUnicode文字プロパティは[\p{ }]で表しますが、鬼車ドキュメントなどによると[: :]はもともとPOSIXブラケットと呼ばれる文字集合を表すためのもののようです(実は当にこの種のPOSIXブラケットを知りませんでした)。昔のことはわかりませんが、おそらくPOSIXでのみ通用する

    [連載:正規表現] Unicode文字プロパティについて (3) 文字プロパティとは|TechRacho by BPS株式会社
  • [連載:正規表現] Unicode文字プロパティについて(2) -- Pの一族|TechRacho by BPS株式会社

    [連載1回目へ] こんにちは、hachi8833です。まだbyobu-configが自分の環境で動いてくれないので、ctrl-aだけ殺してデフォルトキーバインドでbyobuを使い始めているところです。 先週に引き続いて正規表現のUnicode文字プロパティについて調べていきます。改めて調べ始めてみるといろいろと奥深い世界であることに気付き、一人で勝手に盛り上がってます。 早速はてブでツッコミをいただきました。初回連載で[\p{Ideographic}]の記述がいきなり間違っていました。失礼いたしました。Ideographicは日中韓ベトナム(CJKVと略されます)のみが対象となります。前回分も修正いたしました。 Pの一族 正規表現向けのUnicode文字プロパティの解説として、日語で読めるそこそこまとまった資料は、今のところマイクロソフトの .NET Frameworkの「正規表現での文

  • [連載:正規表現] Unicode文字プロパティについて(1)|TechRacho by BPS株式会社

    はじめまして、hachi8833です。 正規表現において、使わないまま死ぬのはあまりにもったいない「Unicode文字プロパティ」について解説します。これについてネット上にまとまった情報がほとんどなく、しかたがないので自分で書くことにしました。書きながら早くも記事があふれてきたので、見出しに「連載」の文字を追加などしてみました。たぶん他所ではほとんど見かけることのない連載になると思います。よろしくお願いします。 通常の開発においては、目的を達成する正規表現を作成してコードが動けば事足りるものであり、コーディング中に正規表現と延々付き合うことは普通ないでしょう。料理人は包丁を研ぐのに時間をかけすぎないものです。しかし特殊な業界の特殊な人々(日に5人もいないと思います)は、来る日も来る日も正規表現を書き続けていたりするので、このUnicode文字プロパティは当にありがたいものです。私の場合

    [連載:正規表現] Unicode文字プロパティについて(1)|TechRacho by BPS株式会社
  • SYMBL (◕‿◕) Symbols, Emojis, Characters, Scripts, Alphabets, Hieroglyphs and the entire Unicode

    Top Symbols ❤ ♫ ☎ • ° ♨ ✈ ✣ ☏ ■ ☀ ➑ ✂ ☑ ✉ ☼ ☆ ✄ ✔ ✆ — ☁ ★ ♕ ✘ № ‰ ♠ ✪ ✝ ╳ © … ♥ ✰ † ✎ ® ¶ ♦ ✧ ‡ ✍ ™ ❆ ♣ ✦ ◑ ♀ ℮ ❅ ♤ ♡ ♪ ♂ ·

    SYMBL (◕‿◕) Symbols, Emojis, Characters, Scripts, Alphabets, Hieroglyphs and the entire Unicode
  • IVS本へのツッコミ・付録の「文字コード表」編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)へのツッコミ第2弾。このは、巻末に付録として2つの文字コード表を掲載しており、ページ数では全体の約半分に及ぶのだが、これらの表にもいろいろ問題があるように思う。 「USC」が215回出現 2つの文字コード表のうち「文字符号対応表(CP932とJIS文字コード)」(pp.218-325)のほうから見ていくこととする。 まず、全ページで(100ページ以上に渡って)「UCS」が「USC」になっている。 フォントの問題 「IPAmj明朝」欄の表示に使われているのはIPAmj明朝ではなくIPAex明朝だと思う(下図を参照)。 ちょっとわけがわからない。 「IPAmj明朝」欄の0x02から0x1b(制御文字領域)に記号や罫線素片が入っているが、IPAmj明朝にもIPAex明朝にも、このような文字は入っていない。 フォールバックで別のフォン

    IVS本へのツッコミ・付録の「文字コード表」編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)を読んでいたら、いくつか気になる点があったので、まとめてみることにした。とりあえず、第4章(37ページ分)だけ。時間と気力があれば、今後、他も追加していくかも*1。組版上の突っ込みは(ひどい例以外は)省いた*2。 p.103 ISO/IEC 8859は《中略》パート16まで定義されています(パート15は破棄)。 破棄されたのはパート12。 p.104 「ISO-10646」の文字集合 「ISO-10646」→「ISO/IEC 10646」。 たとえば、1面19区75点を符号位置とする文字をシフトJISで8ビット符号化した場合0x8A6Bとなる文字を例に見てみましょう。この文字は、葛飾区の「葛」という文字ですが 「葛」はシフトJISで「0x8A6B」ではなく「0x8A8B」。 p.106 「U+000000」→「U+0000」(U

    『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Windows8のUnicode IVS対応で出てきそうな影響 | 電書魂

    先日、大手町のマイクロソフトテクノロジーセンターで開催されたセミナー「Windows 8 で変わる文字 – 異体字と Unicode IVS~ 情報システムにおける日語処理 ~」に参加してきました。また、その後JEPAで開催された「Plat14 Unicode IVS/IVD入門「Unicode IVS/IVD入門」刊行記念セミナー」にも参加させていただき、MicrosoftとしてのUnicode IVS普及への姿勢が少し見えてきた感はありますので、印刷/電子書籍の業界に実際に近々出てきそうな影響についてちょっと書いてみたいと思います。なお、Microsoftのセミナーに関しては「ちくちく日記」さんにレポートが上がっておりますので、そちらも合わせてご覧ください。「Unicode IVS/IVD入門」につきましては、「イジハピ!」さんのエントリが参考になります。 Unicode IVSは「

  • Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    もうすぐお正月だし、こんな図を作ってみたんだけどね。 十二支ですか? いろんな国の十二支? そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。 いちばん左の列が標準的な十二支ってことですね。 うん。日だと、12番目のイノシシだけが独自仕様だな。それが標準仕様だとブタ。 カザフスタンでは、来年の干支はカタツムリですか。 よくわからないけど、そうなのかな。 このペルシアのネズミは、どうして小さいんですか? 標準仕様のネズミの絵を縮小したみたいに見えますけど。 それはネズミの種類が違うんだよ。ドブネズミとハツカネズミ。 え? でもこれ、文字なんだから、たとえばゾウでもアリでも同じ大きさに描かれるものですよね。 原則は、そうだね。 じゃあ、どうしてドブネズミを縮小したのがハツカネズミなんですか? まあ、ちょっと

    Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Java SE 7徹底理解 第7回 Unicode 6.0と国際化

    今回から再びJava SE 7の新機能を解説していきます。今回は、Java SE 7における国際化の拡張について紹介します。 Java SE 7における国際化の一番の目玉といえばUnicode 6.0です。 普段、Unicodeのバージョンを気にしている人はほとんどいないと思います。しかし、Unicode 6.0は少し違います。Unicode 6.0には携帯電話で使われる絵文字が含まれているのです。 Java SE 7ではUnicode 6.0をサポートしているため、この絵文字が使えるようになりました。 もちろん、Unicode 6.0に対応したフォントがあることが必要です。MacではOS X LionからUnicode 6.0に対応したフォントが含まれていますが、他のOSではなんらかのフォントが必要となります。 記事では、和田研細丸ゴシックを使用してUnicode 6.0の絵文字を表示

    Java SE 7徹底理解 第7回 Unicode 6.0と国際化
  • Vistaで化ける字,化けない字

    11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは,Windows 98日語版の発売以来,Windows 2000,Windows Me,Windows XPまでCP932(名はWindows Codepage 932,いわゆるMS漢字コード)とJIS X 0212をサポートしてきたが,最新のWindows VistaではJIS X 0213に乗り換えた。いや,乗り換えたというのは,ちょっと語弊がある。CP932とJIS X 0212に加えて,JIS X 0213もサ

    Vistaで化ける字,化けない字
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • 403 Forbidden

    \閉鎖予定のサイトも売れるかも?/ アクセスがないサイトもコンテンツ価値で売れる場合も… ドメインの有効期限を更新してサイト売却にトライしてみましょう

  • Unicode 版美乳テーブルを探せ

    ページ内リンク 美乳テーブルとは 各文字エンコーディングの事情 それでは題 探索 その文字は ちなみに 付録 EUC-JP 固有の文字 0208 0212 0213-1 0213-2 Shift_JIS 固有の文字 UTF-8 固有の文字 美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日語の文字を書いておくのは、他の

    atm_09_td
    atm_09_td 2011/02/26
    タイトルはあれだが、結構参考になる。