Question What does the Unicode Bidirectional (bidi) Algorithm do, basically? In some older technologies, such as mainframe and iSeries systems, you may still come across text stored in visual order. For more information, see Visual vs. logical ordering of text. It is important to understand from the outset that, in all major web browsers, the order of characters in memory (logical) is not the same
Summary This annex describes specifications for the positioning of characters in text containing characters flowing from right to left, such as Arabic or Hebrew. Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a stable document and may be used as reference material or cited as a normati
A Unicode block is one of several contiguous ranges of numeric character codes (code points) of the Unicode character set that are defined by the Unicode Consortium for administrative and documentation purposes. Typically, proposals such as the addition of new glyphs are discussed and evaluated by considering the relevant block or blocks as a whole. Each block is generally, but not always, meant t
HTML and XML provide ways to reference Unicode characters when the characters themselves either cannot or should not be used. A numeric character reference refers to a character by its Universal Character Set/Unicode code point, and a character entity reference refers to a character by a predefined name. A numeric character reference uses the format &#nnnn; or &#xhhhh; where nnnn is the code point
結合文字列をUnicode正規化で合成する方法の危険性 では、結合文字列を解消する方法としてNFCを適用することの危険性を説明しました。それではどうしたらいいのかをここで考えてみます。 考察 結合文字列を解消する現実的な方法は「Composition Exclusionを処理対象から除いてNFCを適用する」だと思います。そこでComposition Exclusionを正規表現にしてみたのがこちら。 これをもとにしてhappyscriptさんが書いてくれたPerlのスクリプトがこちら。 #!/usr/bin/perl use strict; use Unicode::Normalize; use utf8; #-ソースがUTF8だという宣言 use Encode; binmode STDOUT, ":utf8"; #-画面に出力したい文字コード binmode STDERR, ":utf8
天皇陛下の生前譲位の話題がしばらく前に上がりました。 技術分野でも、改元されると元号を扱っているプログラムを改修する必要が出るとか、元号の「㍻」のような合字はブラウザで縦書きのときに縦に積みなおした合字にするのか、など様々な話題があります。 今回はその中でも、もっと基本的な部分についてチェックしてみようと思います。 元号の開始日付と終了日付は正しくないのではないかという指摘 この問題に気付いたのは「Unicode Standardの元号の説明の問題は変わっていなかった」という個人ブログの記事です。Unicode Standardにおける日本の各元号の開始日付・終了日付がおかしい、という指摘ですね。 Unicode Standardでの定義 そこで、元号に関する説明をUnicodeコンソーシアムのサイトでチェックしてみました。 http://www.unicode.org/standard/
今回は少し目先を変えて「Unicode 正規化(normalization)」のお話。 2羽の「ペンギン」 まず「ペンギン」という文字列を思い浮かべてみる。 この文字列を Unicode のコードポイントで表すと以下のようになる。 ペ:U+30DA ン:U+30F3 ギ:U+30AE ン:U+30F3 ところでペンギンの「ペ」と「ギ」は半濁点および濁点を含む。 Unicode は「ペ」と「ギ」をそれぞれ2つの要素に分解できる。 ペ:U+30D8 + U+309A ン:U+30F3 ギ:U+30AD + U+3099 ン:U+30F3 U+309A および U+3099 はそれぞれ半濁点と濁点を表す「結合文字(combining character)」である。 「ヘ」や「キ」のような「基底文字(base character)」に結合文字を1つ以上1 付加した文字を「合成列(composite
Summary This annex describes guidelines for determining default segmentation boundaries between certain significant text elements: grapheme clusters (“user-perceived characters”), words, and sentences. For line boundaries, see [UAX14] . Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a
こんにちは。卜部です。 ruby-coreというRuby本体の開発の議論がされているメーリングリストがあります。 新機能やバグ報告などがだいたいここに集約されてくるので購読しておくとRubyの動きが分かります。 最近興味深かったトピックを紹介します。 [#12039] Fixnum#infinite?/Bignum#infinite or Numeric#infinte, consistent with Float#infinite? and BigDecimal#infinite? Float と BigDecimal には #infinite? メソッドがあるのに Fixnum と Bignum には存在しないので困る/欲しい、という提案です。これはあると便利ですね。 [#12040][Win32] File.stat fails on a mounted volume Windows
WindowsとMacでリポジトリを共有していると、日本語ファイル名の問題が出てきます。「ボタン.png」のようなファイルがあった場合、Windowsのファイルシステムでは「ボ」はひとつのコードポイントとして扱われますが、Macのファイルシステムでは「ホ」と「゛」が分解されます。 これは、Unicodeの結合文字に対する正規化の扱いが、OSのファイルシステムごとに異なるということです。 これによって、Gitを使ってWindowsで「ボタン.png」をコミットし、Macでそのコミットを持ってくると、「ボタン.png」を削除して「ホ゛タン.png」を追加するような動作になるのです。 この問題を解決するために、Mac OSでのGit実装には、core.precomposeUnicodeという設定があります。configファイルで以下のようになっていた場合、 [core] … precompose
What is SC UniPad? SC UniPad is a Unicode™ plain text editor for the Windows NT®, Windows 9x®, Windows ME®, Windows XP® and Windows 200X® operating systems. +++ Displays about Unicode characters instantly without installing extra fonts + On-screen soft keyboard + Over 60 built-in keyboard layouts + Character map for easy selection of any Unicode character + Import / export of over 60 codepages, en
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く