[B! 全漢字マッチ] FeZnのブックマーク

FeZn id:FeZn

全漢字マッチに関するFeZnのブックマーク (5)

「漢字」のコードについて　＜　秀丸ちま～る
正規表現を使用して検索します。 [0-9]　　半角の数字を検索 [ぁ-ん]　　全角ひらがなを検索 [ァ-ヶ]　　全角カタカナを検索 [ -~]　　任意の1バイト文字(半角空白" "から"~"まで)を検索 [亜-黑]　　全ての漢字（亜（889F）～黑（FC4B））を検索
FeZn 2007/12/07
　IBM漢字とNEC漢字か。……同じ字が入ってるの？　黒旧字とかハシゴ高とか。

正規表現

全漢字マッチ

資料
リンク
サクラエディタで文字列を抽出する
サクラエディタのgrep機能を使う grep（グレップ）とは、複数のテキストファイルにまたがって検索し、ヒットした文字列を一件一行としてリストしてくれる大変便利なツールです（ここではそういうことにしておいて下さい）。サクラエディタに限らずテキストエディタには大抵grep機能が搭載されていますが、サクラエディタの場合こちらが欲している条件の1『正規表現に対応している』のは勿論、条件の3『検索にヒットした文字列のみを二次利用できる』のです。正規表現に対応している。ファイルを検索対象に指定できる。検索にヒットした文字列のみを保存やコピーをして二次利用できる。ソフトの名称サクラエディタソフトの作者たけ(nakatani)→オープンソースプロジェクトによる開発使用したバージョン 1.5.13.1 インストール ZIPファイル版とインストーラーを使用するパッケージ版があるアンインス
FeZn 2007/12/07
正規表現

全漢字マッチ
リンク
日本語検索便乗検証（殿、それには落とし穴がありまする編） - 神様なんて信じない僕らのために
via ときどきの雑記帖様。 ■[ぁ-ヶ]|[亜-黑] 日本語を検索する場合に使う正規表現。Shift_JISの範囲であればまずこれで足りる。内部Unicode化されたものに関しては思い通りに行きません。 ... ちなみにこの辺の事情は、gawkやGNU sed、GNU grep、 Pythonなんかでも同じです。 404 Not Found 「日本語を検索」って結構やりたい事あると思うので。 utf-8としてPythonでもチェック。うお。黑が文字参照としてうってもソースコード中にでないなぁ。 ?がそれです。 #!/usr/bin/env python # encoding: utf-8 import sys import os import re mpt = (re.compile(u'[亜-煕]'), re.compile(u'[亜-?]')) def main(): targe
FeZn 2007/12/07
正規表現

全漢字マッチ
リンク
2005-11-05
http://japan.linux.com/desktop/05/09/02/0144235.shtml にリンクあり。javadocをchmにするみたい。 cssいじった版。見やすいと思う。 http://d.hatena.ne.jp/secondlife/20051023/1129997394 id:toton:20051102 がはてなブックマークの「最近の人気エントリー」のトップに来ていたため、アクセスが結構あった様子。っちゅーわけでアフターケアとして少し検証してみます。間違いがあったらヤなのでwww.unicode.orgのUnihan Radical-Stroke Index っちゅーunicodeデータベース検索で「一:U+4E00」と「龠:U+9FA0」の境界を調べてみた。参考：id:toton:20050120 「一:U+4E00」のコード体系とフォント表示と「龠:
FeZn 2007/12/07
正規表現

全漢字マッチ
リンク
すべての漢字を取り出す正規表現 - totonのブログ
http://www.unixuser.org/~euske/doc/python/sample.py.html # 日本語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html ［亜-煕］はJIS漢字を検出するときに使う正規表現になります。本文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので，すべての漢字を検出するには，[一-龠]を使用してください（龠は音読みで「ヤク」，訓読みで「ふえ」，Unicodeでは「9FA0」にあたります）。追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。
FeZn 2005/11/06
正規表現

全漢字マッチ

日本語

文字コード

regex
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx