並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 1897件

新着順 人気順

unicodeの検索結果121 - 160 件 / 1897件

  • Unicode一覧 0000-0FFF - Wikipedia

    この一覧は、U+0000からU+0FFFまでのUnicodeコードの一覧である。YYY0行X列のコードはU+YYYXであり、HTML文字参照は&#xYYYX;である(環境により表示が異なる場合がある)。 各文字の範囲についてはUnicodeのブロックの一覧を参照。 この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています(詳細)。

    • perl - Unicode「'あ'はAlphabetですが、何か?」 : 404 Blog Not Found

      2010年04月23日07:00 カテゴリLightweight Languages perl - Unicode「'あ'はAlphabetですが、何か?」 結論から言うと、仕様です。 Is "あ" an alphabet? - FloralCompany.log use utf8; print 1 if "あ" =~ /\p{IsAlpha}/; print 2 if "あ" =~ /\p{Alphabetic}/; print 3 if "あ" =~ /[[:alpha:]]/; ナンデヤネーン それも、PerlではなくUnicodeの。 UAX #44: Unicode Character Database Characters with the Alphabetic property. For more information, see Chapter 4 in [Unicode

        perl - Unicode「'あ'はAlphabetですが、何か?」 : 404 Blog Not Found
      • utf8_general_ci と utf8_unicode_ci の違い - Ceekz Logs (Move to y.ceek.jp)

        以前までは、データベース MySQL を利用したアプリケーションを作るときは、文字コードとして EUC-JP を利用していました。最近は、国際化との兼ね合いなどから UTF-8 を利用するようにしています。 MySQL で UTF-8 を扱う場合、照会順序として utf8_bin を使用していました(何も考えずに)。 utf8_bin の場合、部分一致探索 LIKE などの使用時に英字の大文字小文字が区別されてしまう。大文字小文字を区別されないようにするためには、照会順序として utf8_general_ci を使用すればよいのですが、他にも utf8_unicode_ci があることに気がつきました。 utf8_general_ci と utf8_unicode_ci では、どこが違うのだろう? utf8_general_ci also is satisfactory for both

        • 「文字数」ってなぁに?〜String, NSString, Unicodeの基本〜

          第5回スタートアップiOS勉強会( http://connpass.com/event/43260/ )での発表資料です。 ## 参考リンク Unicode のサロゲートペアとは何か - ひだまりソケットは壊れない http://vividcode.hatenablog.com/entry/unicode/surrogate-pair なぜSwiftの文字列APIは難しいのか | プログラミング | POSTD http://postd.cc/why-is-swifts-string-api-so-hard/ Unicodeとは? その歴史と進化、開発者向け基礎知識 - Build Insider http://www.buildinsider.net/language/csharpunicode/01 Unicodeと、C#での文字列の扱い - Build Insider http://

            「文字数」ってなぁに?〜String, NSString, Unicodeの基本〜
          • Unicode変体仮名フォント

            Unicode10.0で規格化された変体仮名を収録したフォントです。 これで「生𛁛𛂦゙」も書けます。 IPAmj明朝フォント(Ver.004.01)の変体仮名グリフのみを取り出してUnicodeのコードポイントを与えたものです。 U+1B001からU+1B11Eまでの286文字のみのフォントなので、一般的なフォントと組み合わせて使ってください。おまけで𛂦゙ 𛂱゙ 𛂱゚の合成グリフ(ccmp)も入ってます。 Unicode code chart Kana Supplement(PDF) Kana Extended-A(PDF) 収録グリフの根拠となるのは、IPAのMJ文字情報一覧表 変体仮名編です。

            • iPhoneの波ダッシュと全角チルダ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

              iPhoneで「〜」を入力したいとき、「から」と打って変換すると、(Mac風に)U+301C(波ダッシュ)になる。 が、キーボードの「ー」や「-」をタップしてその仲間から「〜」を選ぶと、(Windows風に)U+FF5E(全角チルダ)になる。 多くの場合、どちらを使っても特に問題はないのだが、条件によっては、これが原因となって文字化けしたりする*1。たとえば、SoftBank iPhoneからU+FF5E(全角チルダ)のほうを使って「やほ〜」というメッセージを送信すると、charset=Shift_JISになる(au iPhoneならcharset=CP932)。この時点ですでにちょっと珍しい動作なのだけれど、しかし、たいていのメーラーはこれを表示できると思う。もちろんiPhone Mailなら表示できる。 次に、この「やほ〜」というメッセージに「ども〜」というコメントを付けて転送する。今

                iPhoneの波ダッシュと全角チルダ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
              • Unicodeの全文字セットと便利ツールが揃った -Unicode character table

                Unicodeの全文字セットを見やすくまとめたUnicode character tableを紹介します。 見たことのない文字や記号を眺めているだけで、ちょっと楽しいです。 Unicode character table 上記キャプチャだと2スクロール分のスクロールバーしか表示されていませんが、テーブルは無限スクロールとなっており、スクロールするとどんどん表示されます。

                • Unicode::Normalize で遊ぶ - daily dayflower

                  Unicode の規格では,文字の合字(リガチャ等)等を統一的に扱えるように,「正規化」という処理が仕様として定まっています。この正規化処理のうち「互換性分解」という処理を行うと副作用として半角カナを全角カナに変換できます(逆に全角カナ→半角カナはできません)。 #!/usr/bin/perl use strict; use utf8; use Encode; use Unicode::Normalize; my $src = 'ポンジュース'; my $dst = Unicode::Normalize::NFKC($src); print Encode::encode('utf8', "${src} => ${dst}\n"); # OUTPUT is: ポンジュース => ポンジュースUnicode の正規化についてはperl5.8のUnicodeサポート および http:/

                    Unicode::Normalize で遊ぶ - daily dayflower
                  • MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる

                    utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる で、日本語が分かる人には utf8_unicode_ci のヤバさを感じてもらえたと思うんですけど、この挙動はドキュメントによると UCA というアルゴリズムによるものらしい。 MySQL implements the xxx_unicode_ci collations according to the Unicode Collation Algorithm (UCA) described at http://www.unicode.org/reports/tr10/. The collation uses the version-4.0.0 UCA weight keys: http://www.unicode.org/Public/UCA/4.0.0/allkeys-4.0.0.txt. Currently,

                      MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる
                    • 従来の文字コードとUnicodeの対応に関する諸問題

                      最終更新: 1998.12.20 目次 はじめに 似た文字 旧JISと新JIS ベンダー固有文字 「全角」「半角」 ASCIIとJIS X 0201ローマ文字 おわりに 余談 1. はじめに ISO/IEC 10646とUnicode(以下Unicode)は、いろいろと論議をかもしてきましたが、 すでにいろいろなところで陰に陽に使われるようになってきました。 Windows NTの内部コードがUnicodeであるのはよく知られています。 BeOSでは、内部だけでなく全面的にUnicodeが使われています。 また、Javaのchar型もUnicodeです。 しかし、とくに入出力においては、当分は従来の文字コードと共存することになります。 すなわち、意識するしないに関わらず、Unicodeと従来コードの変換が頻繁に行われます。 変換といっても、Unicodeコンソーシアムが提供しているテーブル

                      • Unicodeプロパティを使ったPerl正規表現 - Hatena Developer Blog

                        こんにちは、Webアプリケーションエンジニアのid:nanto_viです。 Webアプリケーションを作っていると、「全角文字と半角文字を統一したい」「ユーザーの入力から漢字を抜き出したい」といったテキスト処理を行う場面にたびたび遭遇します。はてなではWebアプリケーションのサーバー側プログラミング言語としてPerlを多く使っていますが、PerlならこのようなときにUnicodeプロパティを用いた正規表現パターンで柔軟な処理が可能です。 Unicodeプロパティ 現在、ほとんどのプラットフォームで採用されている文字集合がUnicodeです。Unicodeでは文字だけでなくその文字の様々な特性(プロパティ)も定められており、テキスト処理の基礎情報として活用できます。 Perl正規表現でのUnicodeプロパティの利用 Perlの正規表現では、\p{Property_Name=Value}のよう

                          Unicodeプロパティを使ったPerl正規表現 - Hatena Developer Blog
                        • I18N: 令の字にUNICODEのコードが2つあったはなし

                          U+FA98 https://t.co/EQfIZ854DD は互換漢字,トラブルのもとです. たとえば, ・Twitterで使うと,U+FA98はU+4EE4に変わります. ・U+FA98とU+4EE4を(Ctrl+Fで)検索するときに同一視するかどうかはブラウザによります. お仕事がちょっと増えた人がいるかもしれません. pic.twitter.com/Ujg5dbXEN2 — Taro Yabuki (@yabuki) April 1, 2019 めでたく、新元号が「令和」となったわけですが、令に「令(U+4EE4)」と「令(U+F9A8)」が有る事がわかりました。とは言っても、基本的に後者の方はCJK互換漢字に分類され、U+F900 – U+FA0Bは韓国の文字コード企画KS X 1001との往復変換を可能にするために追加された文字(一部文字はJIS X 0123と共有しているがこ

                            I18N: 令の字にUNICODEのコードが2つあったはなし
                          • Unicodeとは? その歴史と進化、開発者向け基礎知識

                            まず、Unicodeで規定されている文字1つ1つには、最大で21bits(16進数で5~6桁)の数値が割り振られている。この数値をコードポイント(code point: 符号点、符号位置)という。 ちなみに、Unicodeでは、コードポイントの数値で文字を表すための表記として、「U+16進数」という書き方を使う。例えば、「a」であればU+61、「あ」であればU+3042と表記する(以下、文字コードは全て16進数で表記する)。 一方で、この21bitsのコードポイントがそのままテキストファイルに保存されるわけではない。一定のルールでバイト列に符号化することになる。詳細については、後々、Unicodeの歴史を追いつつ説明していくが、おおむね以下の3つを押さえておけばいいだろう(加えてコードポイントがビッグエンディアンで格納されるか、リトルエンディアンで格納されるかも重要になる。が、今回と次回は

                            • なぜAppleカラー絵文字のプードルには眉毛があるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

                              ここに2匹のプードルがいるんだけどね。 間違い探しですか? ズバリ、左にだけ眉毛がありますね。 うん。眉毛があるほうが、iPhoneやLionに入ってる絵文字フォントのプードル。眉毛のないほうが、Unicodeのコードチャートに載ってるプードル。 えっ、どういうことですか? そもそもUnicodeにケータイ絵文字を入れようって提案したのがGoogleとAppleだからね。提案書のための絵文字をAppleが用意して、それがUnicodeに収録された。そのあとで、iPhone絵文字に含まれていなかった文字については、データを流用して絵文字フォントに追加したってことじゃないかな。 だからほとんど同じなんですね。でも、眉毛はどうなりました? ケータイ絵文字をUnicodeに収録する過程では、いろいろあってさ。たとえば、日本の絵文字のマンガっぽさをめぐる戦いとか。ほら、アイルランド・ドイツ修正案って

                                なぜAppleカラー絵文字のプードルには眉毛があるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
                              • 開発者向けUnicode FAQ--もう知らないではすまされない - builder by ZDNet Japan

                                クラウドネイティブの実現 モダンインフラの構築・運用の課題解決へ コンテナの可能性を広げるVMware Tanzu DX時代のアプリケーションセキュリティ 未来革新プロジェクトに邁進するSOMPO 基幹システムのモダナイゼーションに迫る VMware 渡辺氏に聞く 顧客のデジタル変革のために 自らも改革を続けるヴイエムウェアの戦略 日清食品グループのDX(前編) 現場が主役のDXのススメ トップの強い意思で変革に弾み Microsoft 365のデータは安全か? クラウド型アプリを採用する企業のための 包括的なデータ保護のありかたを解説 ともにDXを推進する コンテナ化されたワークロードを管理 継続的な価値を生みだす「協創」への挑戦 ITインフラ運用からの解放 HCI+JP1による統合運用による負荷激減で 次世代IT部門への役割変革へ一歩前進 エンドポイントセキュリティの転機 情報セキュリ

                                  開発者向けUnicode FAQ--もう知らないではすまされない - builder by ZDNet Japan
                                • 爆発するIPAmj明朝 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

                                  IPAmj明朝を含むPDFを、iOSのメールアプリやiBooksで表示すると、特定のグリフが爆発する。 爆発前というか、爆発しない環境での表示は、こんなかんじ。 爆発するグリフをOTMaster Lightというツールで見てみた。爆発していた。 「Gridfit」のチェックを外したら、普通に表示された。 GridfitというのはTrueTypeフォントのヒンティング処理(の一部)だと思うが、そこから先はよくわからない。ただ、まったく別系統のアプリ(OTMasterとAppleのiOSアプリ)で同じ現象が見られるということは、たぶん(少なくとも)IPAmj明朝側には問題がありそう。メリー・クリスマス。

                                    爆発するIPAmj明朝 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
                                  • auのiPhoneで絵文字が化ける問題についてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

                                    この項追記。2012年1月27日、au iPhoneはケータイ絵文字に対応したので、以下の記述はすでに古い。詳しくは「auとSoftBankのiPhoneにおける絵文字対応を比較する」を参照。 auのiPhoneで絵文字が化ける問題について、まとめておく*1(以下、iPhoneはiOS 5であることが前提)。細かい条件によっていろいろ違いがあるのだけれど、大ざっぱには、下図の赤矢印が化ける。つまり、iPhoneの@ezweb.ne.jpアカウントからiPhoneの@i.softbank.jpアカウントに絵文字を送ることはできるが、逆方向の場合は化ける。また、auのiPhone(@ezweb.ne.jp)とauのケータイの間では、送受信ともに化ける*2。 auのケータイから送った絵文字をauのiPhoneで表示すると、化ける(下図)。これは、「auの絵文字入りISO-2022-JP」が「Wi

                                      auのiPhoneで絵文字が化ける問題についてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
                                    • Unicode―文字コード入門―

                                      Unicodeとは 多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。 そこでこの問題を解消すべく、IBM、Microsoft、Apple等が加盟(他のメンバーについてはこちらを参照)するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット(65536文字)に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構(ISO)が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される

                                      • 日本発のケータイ絵文字が世界標準に Unicode 6.0で

                                        日本発のケータイ絵文字が国際標準になった。世界共通の文字コード「Unicode」のバージョン6.0に多数の絵文字が取り入れられるという。 Unicode Consortiumは10月11日、新たに完成したUnicode 6.0仕様の一部を公開した。このバージョンには1000を超える新たな記号が追加されており、その中には数百の「emoji」――特に日本で使われている携帯電話の絵文字――も含まれている。Unicodeに組み込まれたことで、これらの絵文字を端末やキャリアを問わずに表示できるようになる。 同団体は今回のリリースで、Unicode 6のデータベースやコード表など実装のアップデートに必要なものを公開している。仕様の最終版は2011年初めに提供するという。

                                          日本発のケータイ絵文字が世界標準に Unicode 6.0で
                                        • Unicodeがこの10年で普及して…

                                          漢字の話とアラビア文字/インド系文字の話が混在してすみません。 現在Unicodeは実用されている文字をほとんど符号化して、新規の追加文字は昔の文字が大きな比重を占めています。複雑な用字系の表示環境も整って特殊絵文字で皆遊んでいる。しかし10年ほど前には全然状況は違っていたわけで……。

                                            Unicodeがこの10年で普及して…
                                          • 世界の文字と記号の大図鑑 Unicode 6.0の全グリフ ー 世界中のあらゆる文字や記号を一望できる本がすごい

                                            世界中のあらゆる文字や記号を一望できるという「世界の文字と記号の大図鑑 ―Unicode 6.0の全グリフ」。 なんとUnicode 6.0の全グリフが1冊の本に掲載されており、実はこの本、発売前から何やらすごい文字本が出る…という噂で話題となっていました。 ドイツで出版されたdecodeunicodeが原書であり、日本版の監修はタイポグラフィ書籍であるタイポグラフィ・ハンドブックの小泉 均さんが担当されています。 Photo by Shinya Hirose(廣瀬真也) decodeunicodeの日本版が世にでるまで 今回監修者の小泉さんに簡単ながら取材をさせていただきました。本レビュー記事についても監修いただいています。 まず、とにかく版権の交渉やコスト面が大変だったとのこと—様々な困難を乗り越えてようやく出版することができたそうです。 ドイツの原書の方は、特に漢字であるCJK (C

                                              世界の文字と記号の大図鑑 Unicode 6.0の全グリフ ー 世界中のあらゆる文字や記号を一望できる本がすごい
                                            • Unicode の文字列をエスケープする JavaScript - bkブログ

                                              Unicode の文字列をエスケープする JavaScript Unicode の文字列を \uXXXX (UTF-16) と \xXX (UTF-8)、&#DDDD (数値文字参照)、Base64, Quoted-printable、 URL などの形式でエスケープする JavaScript です。

                                              • Unicode正規化 用語の混乱について 第4.2版 – ものかの

                                                初版 2010/4/5 第2版 2013/5/10 誤解を修正。全面的に書き直し。 第3版 2014/7/13 なるべく分かりやすく全面的に書き直し。 第4版 2015/5/20 さらに分かりやすく全面的に書き直し。 第4.1版 2015/5/27 まだ分かりにくいと不評なので書き直し。 第4.2版 2015/5/27 さらに分かりやすく調整。 Unicode正規化の考え方自体はとてもシンプルです。でも、よく知ろうとしていろいろ調べると、用語がハイコンテキストすぎて、混乱してワケがわからなくなります。日本で一般的に見られる用語を図にしてみましょう。 混乱するのはどこだと思いますか? “合成済み文字” と “合成文字” の2か所です。どちらも言葉として同じ意味です。それなのに、異なった状態を表す用語として無理矢理に使い分けようとしています。ここから、以下のような奇妙な文章ができあがります。

                                                  Unicode正規化 用語の混乱について 第4.2版 – ものかの
                                                • 知っておきたい! 文字コードの基礎知識 ……ASCII,シフトJIS,Unicode etc.:新刊ピックアップ

                                                  書籍案内 » 新刊ピックアップ » 知っておきたい! 文字コードの基礎知識 ……ASCII,シフトJIS,Unicode etc. 『⁠[⁠改訂新版]プログラマのための文字コード技術入門』 ソフトウェアと文字コード ソフトウェアのエンジニア・開発者であれば,文字コードというものについて大なり小なり触れたことがあることでしょう。ソフトウェアを開発したり運用したりする上では必要になる知識です。ASCIIやシフトJIS,Unicode,UTF-8といったものがよく知られています。プログラマは,プログラムを書くたびに文字列処理という形で文字コードのデータを操作しています。 また,開発に携わらない場合でも,幅広いユーザーが文字コードを意識する機会はあります。たとえば,ソフトウェアの設定ファイルをテキストエディタで編集するときにどの文字コードで保存するかといったことや,通信ソフトウェアの送受信を指定す

                                                    知っておきたい! 文字コードの基礎知識 ……ASCII,シフトJIS,Unicode etc.:新刊ピックアップ
                                                  • UnicodeのIVSがもたらすメリットとデメリット

                                                    UnicodeのIVS(Ideographic Variation Sequence)は、漢字を表すUnicodeの直後に Variation Selectorと呼ばれるコードを付加し、漢字の「異体字」を表現する方法だ。IVSによって、従来よりも多くの字体が利用可能になる反面、データの「名寄せ」が困難になる恐れもある。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、IVSの利点と懸念すべきポイントを解説する。(日経コンピュータ) 筆者がITproに「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」を寄稿してから約1年が経って、IVSに新たな動きがあった。常用漢字表の改正(2010年11月30日)に前後して、4195字のIVSが追加されると同時に、IVS技術促進協議会が発足したのだ。IVSの拡大によって、これまでフォント切り換えでしか

                                                      UnicodeのIVSがもたらすメリットとデメリット
                                                    • Unicode対応 文字コード表

                                                      �$B!!�(BUnicode�$BBP1~$N�(B JIS X 0201 �$B$N�(BJIS�$B%m!<%^;z$H�(BJIS�$B%+%J$NJ8;z%3!<%II=$G$9!#�(B �$B!!�(B�$BJ8;z%3!<%I$K$D$$$F�(B�$B$N%Z!<%8$d!"�(B�$BJ8;z%3!<%I0lMw$K$D$$$F�(B�$B$N@bL@$b$"$j$^$9!#�(B JIS�$B%m!<%^;z!'�(BASCII�$B!&J8;z%3!<%II=�(B JIS SJIS EUC UTF-8 UTF-16 �$B;z�(B 20 20 20 20 0020 21 21 21 21 0021 ! 22 22 22 22 0022 " 23 23 23 23 0023 # 24 24 24 24 0024 $ 25 25 25 25 0025 % 26 26

                                                      • Unicode Snowman for You

                                                        • perl, python & ruby - chr() vs. Unicode : 404 Blog Not Found

                                                          2006年11月23日22:00 カテゴリLightweight Languages perl, python & ruby - chr() vs. Unicode というわけで、404 Blog Not Found:There's more than one language to cook your problemsでPython & Ruby Cookbooksを一気読みしたので、気になる点を少しずつ書いて行くことにする。 まずは、文字の扱い。文字列でない点に注意。 少なくとも、文字列をバイト列と見なして相互変換することは、LLに限らずたいていの言語で出来るようになったのだけど、文字を文字として扱うという点に関しては各言語ともまちまちで、多言語派の私としては結構頭のいたいところ。 ここでは、私が一番流暢なPerlを軸に、RubyとPythonではどうなっているのかを調べてみた。 数値

                                                            perl, python & ruby - chr() vs. Unicode : 404 Blog Not Found
                                                          • 備忘録: Unicode, UCS, and UTF : 404 Blog Not Found

                                                            2005年12月20日11:45 カテゴリiTechLogos 備忘録: Unicode, UCS, and UTF まだ混乱が収まっていらっしゃらないようなので、備忘録を兼ねてここでまとめておきましょう。 電脳社会の日本語 加藤 弘一 quinta essentia - del.icio.us買収, Yonahあってるかな? Character Set (文字集合) vs. Encoding (符号化) まずこの二つが別物だということを抑えましょう。UCSというのは名前からわかる通り、Character Set (文字集合)です(とはいえ、Unicode.orgのGlossaryを見ると、符号化の一手段にも見えなくはない)。この段階では、各文字は「背番号」を持っているに過ぎません。狭義の「Unicode」はこの「背番号」を指します。 これをどう実際のデータにするのかがEncoding (

                                                              備忘録: Unicode, UCS, and UTF : 404 Blog Not Found
                                                            • Unicode「合字」使う企業は修正が必要に、日本マイクロソフトが新元号対応

                                                              2018年中に新元号が公表される見通しになったことを受けて、ITベンダーが顧客企業のシステムや自社のソフトへの影響調査に動き出した。焦点の1つが元号を一文字にまとめて表示する「合字」の取り扱いだ。Unicodeに新元号の合字を登録することが検討されている。日本マイクロソフトは合字の処理方法をはじめ、同社製品の元号に関する影響を調べる。結果に応じて同社製品の改修や顧客企業への情報提供を検討する。合字を使っている企業はシステム改修が必要になる。 「改元は極めて複雑な、非常に多くの検討事項や作業が必要になる」。日本マイクロソフトはブログを通じて、改元に対応したシステム関連作業についてこう指摘する。作業の一例として元号を表示する合字への対応を挙げる。合字とは「㍻」「㍼」など、いくつかの文字を一文字で表示したものだ。 経済産業省 国際電気標準課によれば「新元号の合字へコードを割り当てる検討が始まって

                                                                Unicode「合字」使う企業は修正が必要に、日本マイクロソフトが新元号対応
                                                              • Unicode(ユニコード)一覧表「うにこ~ど」

                                                                うにこ~ど(Unicode)とはコンピュータ上で多言語の文字を単一の 文字コードで取り扱うために1980年代に提唱された文字コードです。 本当は「ユニコード」と読みます。(^_^) 記号などの文字を探すのに便利なように作った Unicode一覧表 です。 Javascript が有効になっていないと動きません。あしからず・・・。 バージョン2になって、Unicode逆引き検索 も可能になりました。 HTMLに Unicode で文字を書く時は 16進 で、&#xFFFF; と書きます。 例えば、上の表で、0x1234 だったら、 &#x1234; ですね。(セミコロンをお忘れなく) どこの国の文字かも分からないですけど、おもしろい文字がたくさんありますね (^_^) たとえば、0x0BXX あたりとか、0x0CXX あたりとか。

                                                                • 『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

                                                                  『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)を読んでいたら、いくつか気になる点があったので、まとめてみることにした。とりあえず、第4章(37ページ分)だけ。時間と気力があれば、今後、他も追加していくかも*1。組版上の突っ込みは(ひどい例以外は)省いた*2。 p.103 ISO/IEC 8859は《中略》パート16まで定義されています(パート15は破棄)。 破棄されたのはパート12。 p.104 「ISO-10646」の文字集合 「ISO-10646」→「ISO/IEC 10646」。 たとえば、1面19区75点を符号位置とする文字をシフトJISで8ビット符号化した場合0x8A6Bとなる文字を例に見てみましょう。この文字は、葛飾区の「葛」という文字ですが 「葛」はシフトJISで「0x8A6B」ではなく「0x8A8B」。 p.106 「U+000000」→「U+0000」(U

                                                                    『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
                                                                  • Unicode - perl+javascript - にプログラムでよく使われる英語の記号の読み方を調べさせる : 404 Blog Not Found

                                                                    2014年03月29日00:00 カテゴリTipsLightweight Languages Unicode - perl+javascript - にプログラムでよく使われる英語の記号の読み方を調べさせる プログラマのための 文字コード技術入門 矢野啓介 プログラマーたるもの、プログラムに出来ることを自らやるべからず。 挑戦者求む!【英語】英語でなんて読むか知ってる? by @masuidrive 増井 雄一郎│CodeIQ プログラムでよく使われる英語の記号の読み方知っていますか? というわけでリハビリをかねて。 dankogai/js-charnames 使い方 git cloneしてmakeしてください。 charnames.jsというファイルが出来るので、あとはこんな感じで使って下さい。 Charnames['']=''; Unicode 6.1的に、というのか生成する時に使った

                                                                      Unicode - perl+javascript - にプログラムでよく使われる英語の記号の読み方を調べさせる : 404 Blog Not Found
                                                                    • 絵文字バリエーション・シーケンスとは何か - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

                                                                      たとえば、仕事用のメールの署名に「☎」という文字を入れていたら、iPhoneではそれが絵文字の赤電話として表示されてびっくり。というような経験をしたことがある人は、たぶん少なくないと思う。こういうことが起きるのは、「絵文字じゃない文字」と「絵文字」がUnicodeでは同じ符号位置に包摂されていて、どちらが表示されるかはフォント(の優先順位)次第だからだ。 ケータイ絵文字をUnicodeに収録する際、Appleはすべての絵文字に独立した(通常の文字とは別の)符号位置を与えたかったようだが、それはかなわなかった。そこで次善の策として、「絵文字じゃない文字」と「絵文字」をプレーン・テキストで区別するメカニズムをUnicodeに提案した。それが絵文字バリエーション・シーケンス(EVS)だ*1。EVSはUnicode 6.1に入り、Mountain Lionでサポートされた。下図は、Mountain

                                                                        絵文字バリエーション・シーケンスとは何か - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
                                                                      • charとUnicodeとワイド文字をごっちゃにしないために

                                                                        ホーム < ゲームつくろー! < C++踏み込み編 < charとUnicodeとワイド文字をごっちゃにしないために その4 charとUnicodeとワイド文字をごっちゃにしないために Visual Studio 2003あたりになってから、ちらほらと出てきたのが「Unicode」や「ワイド文字」という言葉。DirectXでもたびたびこれに苦しめられたりします。どうも世の中従来の1バイト文字からUnicodeへ過渡しそうな気配です。これらの文字の仕様については色々なサイトや辞書に詳しく説明されています。しかし、しっかりまとめないとやっぱり混乱してしまうもんなんです。「バイト文字をUnicodeに変換するのと、マルチバイト文字をワイド文字に変換するのは何が違うのか?」と聞かれたときに、すっと回答できますでしょうか?できる方はすばらしい。迷った方も大丈夫。世の中そんなもんです。 ここでは、c

                                                                        • Python 3.12 から Unicode のサイズが小さくなります - methaneのブログ

                                                                          Python 3.11 までは、空文字でも64バイトのメモリを使用していました。(64bitプラットフォームの場合) Unicodeの内部表現のうち一番小さい PyASCIIObject 構造体が48バイトで、その構造体の後ろにASCII文字列が続きます。その文字列はNUL終端されているので、空文字列でも1バイト追加されて49バイトになります。 >>> sys.getsizeof("") 49 さらに小さいメモリブロックのアロケートをしているpymallocがメモリを(アライメントの関係で)16バイト単位で割り当てるので、49バイトのmallocでも64バイトが確保されてしまいます。 Python 3.12 からは、PyASCIIObject構造体から wchar_t* 表現をキャッシュするポインタが消え、40バイトになりました。それでASCIIで7文字までの文字列であれば48バイトに収ま

                                                                            Python 3.12 から Unicode のサイズが小さくなります - methaneのブログ
                                                                          • Unicodeにおける日本の元号の開始日・終了日の定義について|TechRacho by BPS株式会社

                                                                            天皇陛下の生前譲位の話題がしばらく前に上がりました。 技術分野でも、改元されると元号を扱っているプログラムを改修する必要が出るとか、元号の「㍻」のような合字はブラウザで縦書きのときに縦に積みなおした合字にするのか、など様々な話題があります。 今回はその中でも、もっと基本的な部分についてチェックしてみようと思います。 元号の開始日付と終了日付は正しくないのではないかという指摘 この問題に気付いたのは「Unicode Standardの元号の説明の問題は変わっていなかった」という個人ブログの記事です。Unicode Standardにおける日本の各元号の開始日付・終了日付がおかしい、という指摘ですね。 Unicode Standardでの定義 そこで、元号に関する説明をUnicodeコンソーシアムのサイトでチェックしてみました。 http://www.unicode.org/standard/

                                                                              Unicodeにおける日本の元号の開始日・終了日の定義について|TechRacho by BPS株式会社
                                                                            • [Java] 内部的にunicodeだから日本語つかえるけど・・・いくら英語苦手だからって・・・-ウンコード・マニア

                                                                              [Java] 内部的にunicodeだから日本語つかえるけど・・・いくら英語苦手だからって・・・ 投稿者からのアピールポイント これを書いた先輩に「英語で書きましょうよ!」と言ったら、「頭が固い」と一蹴された。そういうことじゃない。 ちなみに先輩はこれをコードアシストの無いただのテキストエディタで、日本語入力を巧みにon/offしてコーディングしているから、ある意味すごい。 class 会員 { private int 会員番号; private String 名前; public int get会員番号 () { return this.会員番号; } public String get名前() { return this.名前; } public void 入会する() { .... } public boolean 会員状態をチェックする() { .... } .... } 使い方ヒ

                                                                              • ユニコード一覧表:Unicode(文字入力可能)

                                                                                ユニコード一覧表 エーゲ数字 Aegean Numbers 錬金術記号 Alchemical Symbols アルファベット表示形 Alphabetic Presentation Forms 古代ギリシア音符記号 Ancient Greek Musical Notation 古代ギリシア数字 Ancient Greek Numbers 古代記号 Ancient Symbols アラビア文字 Arabic アラビア表示形A Arabic Presentation Forms-A アラビア表示形B Arabic Presentation Forms-B アラビア文字補助 Arabic Supplement アルメニア文字 Armenian 矢印 Arrows アヴェスター文字 Avestan バリ文字 Balinese バムン文字 Bamum バムン文字補助 Bamum Supplement

                                                                                • 資産運用から広島ラーメンまでを網羅する「とほほのWWW入門」に今度は「Unicode一覧」が追加/「WWW」の意味と可能性を広げまくっている超老舗のなんでも入門サイト【やじうまの杜】

                                                                                    資産運用から広島ラーメンまでを網羅する「とほほのWWW入門」に今度は「Unicode一覧」が追加/「WWW」の意味と可能性を広げまくっている超老舗のなんでも入門サイト【やじうまの杜】