タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

JISと正規表現に関するkatotakuのブックマーク (2)

  • 2005-11-05

    http://japan.linux.com/desktop/05/09/02/0144235.shtml にリンクあり。javadocをchmにするみたい。 cssいじった版。見やすいと思う。 http://d.hatena.ne.jp/secondlife/20051023/1129997394 id:toton:20051102 がはてなブックマークの「最近の人気エントリー」のトップに来ていたため、アクセスが結構あった様子。っちゅーわけでアフターケアとして少し検証してみます。 間違いがあったらヤなのでwww.unicode.orgのUnihan Radical-Stroke Index っちゅーunicodeデータベース検索で「一:U+4E00」と「龠:U+9FA0」の境界を調べてみた。 参考:id:toton:20050120 「一:U+4E00」のコード体系とフォント表示と「龠:

    2005-11-05
  • すべての漢字を取り出す正規表現 - totonのブログ

    http://www.unixuser.org/~euske/doc/python/sample.py.html # 日語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html [亜-煕]はJIS漢字を検出するときに使う正規表現になります。 文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので,すべての漢字を検出するには,[一-龠]を使用してください(龠は音読みで「ヤク」,訓読みで「ふえ」,Unicodeでは「9FA0」にあたります)。 追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。

    すべての漢字を取り出す正規表現 - totonのブログ
  • 1