正規表現を使用して検索します。 [0-9] 半角の数字を検索 [ぁ-ん] 全角ひらがなを検索 [ァ-ヶ] 全角カタカナを検索 [ -~] 任意の1バイト文字(半角空白" "から"~"まで)を検索 [亜-黑] 全ての漢字(亜(889F)~黑(FC4B))を検索
正規表現を使用して検索します。 [0-9] 半角の数字を検索 [ぁ-ん] 全角ひらがなを検索 [ァ-ヶ] 全角カタカナを検索 [ -~] 任意の1バイト文字(半角空白" "から"~"まで)を検索 [亜-黑] 全ての漢字(亜(889F)~黑(FC4B))を検索
サクラエディタのgrep機能を使う grep(グレップ)とは、複数のテキストファイルにまたがって検索し、ヒットした文字列を一件一行としてリストしてくれる大変便利なツールです(ここではそういうことにしておいて下さい)。 サクラエディタに限らずテキストエディタには大抵grep機能が搭載されていますが、サクラエディタの場合こちらが欲している条件の1『正規表現に対応している』のは勿論、条件の3『検索にヒットした文字列のみを二次利用できる』のです。 正規表現に対応している。 ファイルを検索対象に指定できる。 検索にヒットした文字列のみを保存やコピーをして二次利用できる。 ソフトの名称 サクラエディタ ソフトの作者 たけ(nakatani)→オープンソースプロジェクトによる開発 使用したバージョン 1.5.13.1 インストール ZIPファイル版とインストーラーを使用するパッケージ版がある アンインス
via ときどきの雑記帖様。 ■[ぁ-ヶ]|[亜-黑] 日本語を検索する場合に使う正規表現。Shift_JISの範囲であればまずこれで足りる。 内部Unicode化されたものに関しては思い通りに行きません。 ... ちなみにこの辺の事情は、gawkやGNU sed、GNU grep、 Pythonなんかでも同じです。 404 Not Found 「日本語を検索」って結構やりたい事あると思うので。 utf-8としてPythonでもチェック。 うお。黑が文字参照としてうってもソースコード中にでないなぁ。 ?がそれです。 #!/usr/bin/env python # encoding: utf-8 import sys import os import re mpt = (re.compile(u'[亜-煕]'), re.compile(u'[亜-?]')) def main(): targe
http://japan.linux.com/desktop/05/09/02/0144235.shtml にリンクあり。javadocをchmにするみたい。 cssいじった版。見やすいと思う。 http://d.hatena.ne.jp/secondlife/20051023/1129997394 id:toton:20051102 がはてなブックマークの「最近の人気エントリー」のトップに来ていたため、アクセスが結構あった様子。っちゅーわけでアフターケアとして少し検証してみます。 間違いがあったらヤなのでwww.unicode.orgのUnihan Radical-Stroke Index っちゅーunicodeデータベース検索で「一:U+4E00」と「龠:U+9FA0」の境界を調べてみた。 参考:id:toton:20050120 「一:U+4E00」のコード体系とフォント表示と「龠:
http://www.unixuser.org/~euske/doc/python/sample.py.html # 日本語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html [亜-煕]はJIS漢字を検出するときに使う正規表現になります。 本文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので,すべての漢字を検出するには,[一-龠]を使用してください(龠は音読みで「ヤク」,訓読みで「ふえ」,Unicodeでは「9FA0」にあたります)。 追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く