goto553のブックマーク / 2009年11月26日

goto553 id:goto553

2009年11月26日のブックマーク (10件)

Unicodeでの正規表現 - ぱせらんメモ
http://kjirou.sakura.ne.jp/mt/2008/10/python_unicode.html例えば、ユニコード型文字列の内、漢字のみ（"一"〜"龥"）をマッチさせる場合 l = re.findall(u"[\u4e00-\u9fa5]+", "ひらがな漢字カタカナascii".decode("utf-8")) print l[0].encode("utf-8") # -> "漢字" 他の言語と違ってUnicode型というデータ型があるので明瞭極まりない！（from http://kjirou.sakura.ne.jp/mt/） PythonはわからないけどPerlに通じるものを感じたのでPerlでやってみた。まずは上記のコードに似せたパターン。スクリプトファイルはUTF-8で作成。 use strict; use warnings; use Encode; my
goto553 2009/11/26
perl

unicode

正規表現
リンク
MODULE.JP - 日本語に絡むUnicodeブロックとスクリプト(正規表現)
といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日本語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離
goto553 2009/11/26
unicode

perl

正規表現

ブロック

block

property
リンク
Unicode一覧表 - Wikipedia
第0面（Plane 0）は、基本多言語面（英:Basic Multilingual Plane; BMP）である。 Unicode一覧 0000-0FFF（U+0000からU+0FFFまで） Unicode一覧 1000-1FFF（U+1000からU+1FFFまで） Unicode一覧 2000-2FFF（U+2000からU+2FFFまで） Unicode一覧 3000-3FFF（U+3000からU+3FFFまで） Unicode一覧 4000-4FFF（U+4000からU+4FFFまで） Unicode一覧 5000-5FFF（U+5000からU+5FFFまで） Unicode一覧 6000-6FFF（U+6000からU+6FFFまで） Unicode一覧 7000-7FFF（U+7000からU+7FFFまで） Unicode一覧 8000-8FFF（U+8000からU+8FFFまで）
goto553 2009/11/26
unicode

コード表
リンク
すべての漢字を取り出す正規表現 - totonのブログ
http://www.unixuser.org/~euske/doc/python/sample.py.html # 日本語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html ［亜-煕］はJIS漢字を検出するときに使う正規表現になります。本文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので，すべての漢字を検出するには，[一-龠]を使用してください（龠は音読みで「ヤク」，訓読みで「ふえ」，Unicodeでは「9FA0」にあたります）。追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。
goto553 2009/11/26
日本語

正規表現

perl

unicode
リンク
Unicode対応 JIS X 0208 文字コード表
Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区～08区　JIS非漢字（各種記号、英数字、かな） 13区～13区　NEC特殊文字（機種依存） 16区～47区　JIS第1水準漢字 48区～84区　JIS第2水準漢字文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字文字コード表区点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001
goto553 2009/11/26
文字コード

jis

0208

unicode

コード表
リンク
Unicode対応文字コード表
�$B!!�(BUnicode�$BBP1~$N�(B JIS X 0201 �$B$N�(BJIS�$B%m!<%^;z$H�(BJIS�$B%+%J$NJ8;z%3!<%II=$G$9!#�(B �$B!!�(B�$BJ8;z%3!<%I$K$D$$$F�(B�$B$N%Z!<%8$d!"�(B�$BJ8;z%3!<%I0lMw$K$D$$$F�(B�$B$N@bL@$b$"$j$^$9!#�(B JIS�$B%m!<%^;z!'�(BASCII�$B!&J8;z%3!<%II=�(B JIS SJIS EUC UTF-8 UTF-16 �$B;z�(B 20 20 20 20 0020 21 21 21 21 0021 ! 22 22 22 22 0022 " 23 23 23 23 0023 # 24 24 24 24 0024 $ 25 25 25 25 0025 % 26 26
goto553 2009/11/26
文字コード

jis

0201

unicode

コード表
リンク
制御コード表
JIS X 0211 制御コード表制御コードの一覧と、簡単な意味の説明です。文字コードについてのページもあります。 JIS X 0211 制御コード表制御コードには、C0集合とC1集合があります。 C0集合の制御コードは、Ctrlキーを押しながら文字キーを押すことで、入力することができます。この場合、「Ctrl+A」や、「^A」などと表記されていることがあります。また、0x01から、0x1Aまでは、「^A」から「^Z」に対応していますので、アルファベットの何文字目かを考えることで、入力ができます。 C0集合コード値ctrl説明
goto553 2009/11/26
文字コード

jis

0211
リンク
ASCIIとANK
「b7」などの「b」はビットを意味します。例えば「b7」は7ビット目という意味です。例えば、「A」のASCIIコードは1000001ですが、これでは人間が覚えにくいので、文字コードは16進数で表現されるのが普通です。「A」のASCIIコードは16進数で「41」で、C言語やPerlなどのプログラミング言語では、「0x41」のように、先頭に「0x」を付けて表します。 ISO/IEC 646 ASCIIは、一部の文字を入れ替えるとヨーロッパ諸国でも使用可能なため、ISO規格「ISO/IEC 646 BCT（Basic Code Table）」となりましたが、その際に一部の文字を変更可能としました。そのため、国によって一部のコードに対応する文字が異なります。日本では、ISO規格は下記のANK（JIS X 0201）になり、16進コードの「5C」および「7E」のみが変更されました。そのため、AS
goto553 2009/11/26
文字コード

ascii

ank
リンク
文字コード表
JIS X 0201 の文字コード一覧 JIS X 0201 の文字コード一覧です。 JIS X 0201では、JISローマ字とJISカナが定義されています。 20-7E JISローマ字：ASCII A0-DF JISカナ：半角カナ（非推奨）文字コードについてのページやUnicode対応の JIS X 0201 の文字コード一覧もあります。 JIS X 0201 文字コード表 JISローマ字：ASCII JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 20 20 20 ! " # $ % & ' ( ) * + , - . / 30 30 30 0 1 2 3 4 5 6 7 8 9 : ; < = > ? 40 40 40 @ A B C D E F G H I J K L M N O 50 50 50 P Q
goto553 2009/11/26
文字コード

jis

0201
リンク
JIS X 0208 の文字コード表
JIS X 0208 の文字コード表です。 JIS X 0208 文字コード表 01区～08区各種記号、英数字、かな 09区～15区未定義（機種依存） (13区 NEC拡張外字) 16区～47区 JIS第一水準漢字 48区～84区 JIS第二水準漢字 85区～94区未定義（機種依存） (89区～92区 NEC拡張外字) JIS コードの場合、エスケープシーケンスは、表示していません。このページは、以下のページにあるPerl スクリプトにより自動作成しています。 ASHのプログラムソース ●ＪＩＳ漢字 JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 01区 2120 813F A1A0 　、。，．・：；？！゛゜ ´ ｀ ¨ 01区 2130 814F A1B0 ＾￣＿ヽヾゝゞ
goto553 2009/11/26
文字コード

jis

0208
リンク
- 2009年11月27日
- 2009年11月26日
- 2009年11月25日