タグ

unicodeに関するkatowのブックマーク (29)

  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    katow
    katow 2017/11/13
    勉強になる
  • UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由 

    UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由 
  • Twitterで見かけるハミ出した顔文字の正体 - RyoAnna

    少し前からTwitterで見かけるようになった、上下に飛び出す変な顔文字。 気持ち悪いのであまり関わらないようにしていたのだが、この顔文字の謎が明らかになったのでお伝えしたい。 いつものようにiPhoneのApp Storeをぶらぶらしていた時のこと。 Unicoder Lite (App Store)というアプリが気になりダウンロードした。 起動するとなにやら見慣れた文字が。 顔文字でよく使われるギリシャ文字やキリル文字だ。 しばらく眺めているとこんな符号が。 合成用区分符号 これが上と下の行にはみ出す顔文字の正体だった。 ためしに作ってみよう。 ベースとなる顔文字を置く。 左目に合成用区分符号を入れる。 続いて右目に。 見事にはみ出す。 Unicode(ユニコード)とは、世界中のコンピュータの文字を符号化したもの。その "U+0300-036F" に配置されているダイアクリティカルマー

    Twitterで見かけるハミ出した顔文字の正体 - RyoAnna
    katow
    katow 2011/06/08
    合成文字の規格ってこんなに自由度があるのか…若干あきれ加減ww
  • 波ダッシュ・全角チルダ問題 - Wikipedia

    Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても質的に同じ文字であれ‮ば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、

    波ダッシュ・全角チルダ問題 - Wikipedia
    katow
    katow 2011/01/06
    Unicodeの分類範囲の表があった。
  • 携帯の絵文字をUnicodeへ|社内NEET宣言

  • https://support.microsoft.com/ja-jp/help/933217

    すべての Microsoft 製品 Microsoft 365 Office Windows Surface Xbox セール サポート ソフトウェア Windows アプリ OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入する アクセサリ VR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム 映画テレビ番組 法人向け Microsoft Azure Microsoft Dynamics 365 Microsoft 365 Microsoft Industry データ プラットフォーム Power Platform 法人向けを購入する Developer & IT .NET Visual Studi

    katow
    katow 2011/01/06
    OSやOfficeアプリで先に使ってしまっているUnicode(私用領域)の文字コードをまとめ
  • Unicode文字のマッピング - Wikipedia

    UnicodeやISO/IEC 10646には、単純計算で U+0000 ~ U+10FFFF の 1,114,112 = 220 + 216 個の符号位置がある。 Unicode 5.0.0の時点で、これらの符号位置のうち 102,012 (9.2%) が割り当て済みであり、ほかに 137,468 (12.3%) が#私用文字に、2,048 が#代用符号位置に予約されており、そして 66 が#非文字に指定され、872,582 (78.3%) が未割り当てのまま残されている。割り当てられた符号位置の数は以下のような構成である。 2,684 は特定のブロック内への割り当てのために予約されている。 98,893 は図形文字である。 435 は制御、整形、グリフ/文字の異体字選択用の#その他の特殊用途文字である。 (さらに詳細な内訳は#UCS文字割り当ての集計表を参照) Unicodeの文字はさ

    katow
    katow 2011/01/06
    Unicode文字のわかりやすいまとめ。
  • Index

    Automatic redirect: http://home.unicode.org/

  • Unicode Terminology: English - Japanese

    Unicode Terminology English - Japanese This terminology page, which includes both Unicode terms and ISO/IEC 10646 terms, is sorted by English, giving the corresponding Japanese translation of each term. There is also a Japanese - English page.

    katow
    katow 2011/01/06
    Unicodeの字形グループの英語名称の日本語訳
  • IPAexフォントと異体字 - OpenOffice.org Users Group SNS

    2月26日に独立行政法人 情報処理推進機構(IPA)が新フォントIPAexフォント」のリリースを発表しました[1]。 このフォントの特長は、なんといっても異体字(Ideographic Variation)に対応していることです。文字コードの規格「JIS X 0213」には、2000年に制定された「JIS2000」と2004年に制定された「JIS2004」があり、「IPAexフォント」の変更履歴[2]を読んでみると「JIS0213:2004制定時に字体変更された文字の旧字体を異体字として収容」と書かれています。 では、具体的に異体字はどのようにすれば表示できるのでしょう。Wikipediaの「異体字セレクタ」ページ[3]によれば、OS、フォント、アプリケーションの対応が求められています。わたしが持つ環境では、Windows 7(RC版もうすぐ期限切れ)、メモ帳が対応しているようです。そし

    katow
    katow 2011/01/06
    一番判りやすかった。Win7+異体字セレクタ対応アプリ。手元のWinXP+Office2007でIMEからバリエーションセレクター補助コードの入力ができたので、メモ帳に入力してみたが2文字が合体しなかった。WinXPのメモ帳では×。
  • http://openblog.meblog.biz/article/2580328.html

    katow
    katow 2011/01/06
    異体字を使いたければWin7にすること、ただしフォントもIPAexにすること(MSのフォントでは字形が足りないらしい)
  • 異体字セレクタ - Wikipedia

    異体字セレクタを付けない場合、点のある字体と点のない字体は区別されない。VS(異体字セレクタ)17を付けると点のない字体、VS18を付けると点のある字体を表す。 異体字セレクタ[注 1] [注 2] (いたいじセレクタ、英: Variation Selectors) は、Unicode および ISO/IEC 10646 (UCS) における、文字の字体をより詳細に指定するためのセレクタ (選択子) である。 Unicodeでは抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときはフォントの指定などによって行うのが原則である[1][注 3]。 この原則は、たとえばラテン文字の 'a' で、上部の右から左へ伸びる線があるかどうか、という違いは通常は「フォントの違い」であり「別の字」とはしないためほとん

    異体字セレクタ - Wikipedia
    katow
    katow 2011/01/06
    WindowsでUnicodeのプレーンテキストでも異体字を切り替えて用いるための技術仕様。ただし標準対応したのはWindows7からで、更にメイリオフォントが異体字非対応かつアプリ側も異体字セレクタに準拠実装する必要あり。
  • ユニコード番号から、IMEパッドで文字入力したい

    過去問がうまく調べられなかったので、改めてお尋ねします。 IMEパッドから、ユニコード番号を入力して漢字を入力する 方法があったように思うのですが思い出せません・・・。 漢籍の書名などの入力に使う、昔の漢字や異体字を入力したいのですが・・。 IMEパッドで文字一覧を選び、UNICODEを選ぶと、漢字がたぶんユニコード 番号順に表示されますが、ユニコード番号は漢字情報辞典でわかって いるので、番号から入力がしたいのです。

    ユニコード番号から、IMEパッドで文字入力したい
    katow
    katow 2011/01/06
    Unicode文字のIMEからの直接入力方法
  • 文字コードと字形 - osdev-j (MMA)

    文字情報処理 文字コード フォント .mjtの個人的メモ&某チャンネルのメモ。テンポラリ。 要点 文字コードXに対して、どういう画像を表示するのかという問題。 主に正字と略字が対立する。 JIS2004ではそうだが、基的には異体字かなぁ。 ↑ 前提 このページでは単語の定義はJISに従う。 字体:「図形文字の図形表現としての形状についての抽象的概念」 包摂:「複数の字体を区別せずに、それらに同一の面区点位置を与えることをいう」 字形:「字体を、手書き、印字、画面表示などによって実際に図形として表現したもの」 一般的には、JISの「字形」が「字体」に対応し、「字体」に対応する言葉は「文字コード(面区点位置)」? 一般には字形と字体が混同されている感はある 「字体」はabstract character、文字概念だろう。 面句点位置 = code point = 符号化文字 は 包摂された一

  • Glyph Access Protocol

    Mac OS X に含まれるフォントには、Unicode の範囲に属さない多数のグリフが用意されています。Glyph Access Protocol は、これらのエンコード対象外グリフを、アプリケーションと入力メソッドで操作できるようにします。 このテクニカルノートでは、Text Services Manager、ATSUICocoa を使用して上述のグリフをサポートする方法と、クリップボードを使用してデータ交換を行う方法について説明します。これらのサービスに対するサポートを組み込むアプリケーションおよび入力メソッドのデベロッパは、このテクニカルノートに目を通しておく必要があります。 [2003 年 5 月 6 日] はじめに Glyph Access Protocol により、アプリケーションと入力メソッドのデベロッパはエンコード対象外グリフをサポートできるようになります。この記事にお

  • Unicode 15.1 Character Code Charts

    European Scripts Armenian Armenian Ligatures Carian Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin

    katow
    katow 2010/09/08
    PDFで出てくる
  • 備忘録: Unicode, UCS, and UTF : 404 Blog Not Found

    2005年12月20日11:45 カテゴリiTechLogos 備忘録: Unicode, UCS, and UTF まだ混乱が収まっていらっしゃらないようなので、備忘録を兼ねてここでまとめておきましょう。 電脳社会の日語 加藤 弘一 quinta essentia - del.icio.us買収, Yonahあってるかな? Character Set (文字集合) vs. Encoding (符号化) まずこの二つが別物だということを抑えましょう。UCSというのは名前からわかる通り、Character Set (文字集合)です(とはいえ、Unicode.orgのGlossaryを見ると、符号化の一手段にも見えなくはない)。この段階では、各文字は「背番号」を持っているに過ぎません。狭義の「Unicode」はこの「背番号」を指します。 これをどう実際のデータにするのかがEncoding (

    備忘録: Unicode, UCS, and UTF : 404 Blog Not Found
  • UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity

    UnicodeとUTF-8の違いは? - Humanityはあんなに反響があるとは思わなかった。 ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。 と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。 調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。 参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

    UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity
  • Unicode(ユニコード)一覧表「うにこ~ど」

    うにこ~ど(Unicode)とはコンピュータ上で多言語の文字を単一の 文字コードで取り扱うために1980年代に提唱された文字コードです。 当は「ユニコード」と読みます。(^_^) 記号などの文字を探すのに便利なように作った Unicode一覧表 です。 Javascript が有効になっていないと動きません。あしからず・・・。 バージョン2になって、Unicode逆引き検索 も可能になりました。 HTMLに Unicode で文字を書く時は 16進 で、 と書きます。 例えば、上の表で、0x1234 だったら、 ሴ ですね。(セミコロンをお忘れなく) どこの国の文字かも分からないですけど、おもしろい文字がたくさんありますね (^_^) たとえば、0x0BXX あたりとか、0x0CXX あたりとか。

    katow
    katow 2010/09/08
    面白いサービスだけど目の前の調査事項は解決しなかった・・・
  • [XL2002] UTF-8 形式のテキスト ファイルが文字化けする - Microsoft サポート

    上記製品の総称を以下 Excel とします。 概要 この資料は、Excel にて UTF-8 形式のテキスト ファイルを開くと文字化けが発生する動作について説明しています。 現象 Excel にて、UTF-8 形式のテキスト ファイル (拡張子 CSV や TXT) を開くと文字化けが発生します。 原因 Excel では、UTF-8 形式でテキスト ファイルを開くことができません。 状況 この現象は Excel の仕様に基づく制限事項です。 詳細 Excel でテキスト ファイルを開く場合は、以下のように動作します。 CSV ファイルの場合 ~~~~~~~~~~~~~~~~ システムの既定の言語のコード ページで開きます。 従って、日語 OS の場合は文字コード Shift-JIS でテキストを取り込みます。 そのため、それ以外の形式の文字は正しく表示できません。 HTML ファイルの場

    katow
    katow 2010/09/07
    知らんかった。2002の代ではUnicode対応してなかったのか。メインPCが2002だからちょっと困るが、サブに2003が入ってるから我慢しよう。