タグ

Unicodeに関するmasa7351のブックマーク (3)

  • Unicode Escape Sequence | KWONLINE.ORG

    語などのマルチバイト文字を、「¥uXXXX」形式のユニコードエスケープに変換します。 ユニコードエスケープからの逆変換も出来ます。 下記テキストエリアに入力したのち、[変換]ボタンを押すと、画面下部の結果ボックス内に変換結果が表示されます。 変換に使ってるJavascriptの解説はこちら。 テキストをここに入力する: ¥uXXXX形式に変換(Escape) 日語に変換(Unescape) 結果:

  • MODULE.JP - 日本語に絡むUnicodeブロックとスクリプト(正規表現)

    といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離

  • Unicode一覧 3000-3FFF - Wikipedia

    この一覧は、U+3000からU+3FFFまでのUnicodeコードの一覧である。YYY0行X列のコードはU+YYYXであり、HTML文字参照は&#xYYYX;である(環境により表示が異なる場合がある)。 各文字の範囲についてはUnicodeのブロックの一覧を参照。 この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています(詳細)。

  • 1