タグ

2009年11月26日のブックマーク (10件)

  • Unicodeでの正規表現 - ぱせらんメモ

    http://kjirou.sakura.ne.jp/mt/2008/10/python_unicode.html例えば、ユニコード型文字列の内、漢字のみ("一"〜"龥")をマッチさせる場合 l = re.findall(u"[\u4e00-\u9fa5]+", "ひらがな漢字カタカナascii".decode("utf-8")) print l[0].encode("utf-8") # -> "漢字" 他の言語と違ってUnicode型というデータ型があるので明瞭極まりない! (from http://kjirou.sakura.ne.jp/mt/) PythonはわからないけどPerlに通じるものを感じたのでPerlでやってみた。 まずは上記のコードに似せたパターン。スクリプトファイルはUTF-8で作成。 use strict; use warnings; use Encode; my

    Unicodeでの正規表現 - ぱせらんメモ
  • MODULE.JP - 日本語に絡むUnicodeブロックとスクリプト(正規表現)

    といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離

  • Unicode一覧表 - Wikipedia

    第0面(Plane 0)は、基多言語面(英:Basic Multilingual Plane; BMP)である。 Unicode一覧 0000-0FFF(U+0000からU+0FFFまで) Unicode一覧 1000-1FFF(U+1000からU+1FFFまで) Unicode一覧 2000-2FFF(U+2000からU+2FFFまで) Unicode一覧 3000-3FFF(U+3000からU+3FFFまで) Unicode一覧 4000-4FFF(U+4000からU+4FFFまで) Unicode一覧 5000-5FFF(U+5000からU+5FFFまで) Unicode一覧 6000-6FFF(U+6000からU+6FFFまで) Unicode一覧 7000-7FFF(U+7000からU+7FFFまで) Unicode一覧 8000-8FFF(U+8000からU+8FFFまで)

  • すべての漢字を取り出す正規表現 - totonのブログ

    http://www.unixuser.org/~euske/doc/python/sample.py.html # 日語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html [亜-煕]はJIS漢字を検出するときに使う正規表現になります。 文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので,すべての漢字を検出するには,[一-龠]を使用してください(龠は音読みで「ヤク」,訓読みで「ふえ」,Unicodeでは「9FA0」にあたります)。 追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。

    すべての漢字を取り出す正規表現 - totonのブログ
  • Unicode対応 JIS X 0208 文字コード表

    Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。 文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区~08区 JIS非漢字(各種記号、英数字、かな) 13区~13区 NEC特殊文字(機種依存) 16区~47区 JIS第1水準漢字 48区~84区 JIS第2水準漢字 文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字 文字コード表 区 点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

  • Unicode対応 文字コード表

    �$B!!�(BUnicode�$BBP1~$N�(B JIS X 0201 �$B$N�(BJIS�$B%m!<%^;z$H�(BJIS�$B%+%J$NJ8;z%3!<%II=$G$9!#�(B �$B!!�(B�$BJ8;z%3!<%I$K$D$$$F�(B�$B$N%Z!<%8$d!"�(B�$BJ8;z%3!<%I0lMw$K$D$$$F�(B�$B$N@bL@$b$"$j$^$9!#�(B JIS�$B%m!<%^;z!'�(BASCII�$B!&J8;z%3!<%II=�(B JIS SJIS EUC UTF-8 UTF-16 �$B;z�(B 20 20 20 20 0020 21 21 21 21 0021 ! 22 22 22 22 0022 " 23 23 23 23 0023 # 24 24 24 24 0024 $ 25 25 25 25 0025 % 26 26

  • 制御コード表

    JIS X 0211 制御コード表 制御コードの一覧と、簡単な意味の説明です。 文字コードについてのページもあります。 JIS X 0211 制御コード表 制御コードには、C0集合とC1集合があります。 C0集合の制御コードは、Ctrlキーを押しながら文字キーを押すことで、入力することができます。 この場合、「Ctrl+A」や、「^A」などと表記されていることがあります。 また、0x01から、0x1Aまでは、「^A」から「^Z」に対応していますので、アルファベットの何文字目かを考えることで、入力ができます。 C0集合 コード値ctrl説明

  • ASCIIとANK

    「b7」などの「b」はビットを意味します。例えば「b7」は7ビット目という意味です。例えば、「A」のASCIIコードは1000001ですが、これでは人間が覚えにくいので、文字コードは16進数で表現されるのが普通です。「A」のASCIIコードは16進数で「41」で、C言語やPerlなどのプログラミング言語では、「0x41」のように、先頭に「0x」を付けて表します。 ISO/IEC 646 ASCIIは、一部の文字を入れ替えるとヨーロッパ諸国でも使用可能なため、ISO規格「ISO/IEC 646 BCT(Basic Code Table)」となりましたが、その際に一部の文字を変更可能としました。そのため、国によって一部のコードに対応する文字が異なります。 日では、ISO規格は下記のANK(JIS X 0201)になり、16進コードの「5C」および「7E」のみが変更されました。そのため、AS

  • 文字コード表

    JIS X 0201 の文字コード一覧 JIS X 0201 の文字コード一覧です。 JIS X 0201では、JISローマ字とJISカナが定義されています。 20-7E JISローマ字:ASCII A0-DF JISカナ:半角カナ(非推奨) 文字コードについてのページやUnicode対応の JIS X 0201 の文字コード一覧もあります。 JIS X 0201 文字コード表 JISローマ字:ASCII JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 20 20 20 ! " # $ % & ' ( ) * + , - . / 30 30 30 0 1 2 3 4 5 6 7 8 9 : ; < = > ? 40 40 40 @ A B C D E F G H I J K L M N O 50 50 50 P Q

  • JIS X 0208 の文字コード表

    JIS X 0208 の文字コード表です。 JIS X 0208 文字コード表 01区~08区 各種記号、英数字、かな 09区~15区 未定義(機種依存) (13区 NEC拡張外字) 16区~47区 JIS第一水準漢字 48区~84区 JIS第二水準漢字 85区~94区 未定義(機種依存) (89区~92区 NEC拡張外字) JIS コードの場合、エスケープシーケンスは、表示していません。 このページは、以下のページにあるPerl スクリプトにより自動作成しています。 ASHのプログラムソース ●JIS漢字 JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 01区 2120 813F A1A0   、 。 , . ・ : ; ? ! ゛ ゜ ´ ` ¨ 01区 2130 814F A1B0 ^  ̄ _ ヽ ヾ ゝ ゞ