[B! encoding][regexp] ftnkのブックマーク

ftnk id:ftnk

encodingとregexpに関するftnkのブックマーク (2)

perl - 文字列ばらしはsplit //, $strで : 404 Blog Not Found
2007年11月27日13:30 カテゴリLightweight Languages perl - 文字列ばらしはsplit //, $strでうーん、ここがあきまへん。 [を] 転置インデックスによる検索システムを作ってみよう！ 9 my @char = ($c =~ /([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]| 10 [\xE0-\xEF][\x80-\xBF]{2}| 11 [\xF0-\xF7][\x80-\xBF]{3})/gsx); 文字列をばらして(utf8の)文字一つ一つの配列にするには、バイト列に正規表現をかますのではなく、utf8文字列にしてからそれにsplit //をかますのが一番です。単にわかりやすいだけではなく、その方がずっと高速です。以下、Benchmark。 #!/usr/local/bin/perl use strict; u
ftnk 2007/12/27
perl

tips

Programming

dankogai

regexp

unicode

utf8

encoding
リンク
[を] UTF-8 で半角カナを判定
UTF-8 で半角カナを判定 2006-11-09-3 [Programming] Perl で UTF-8 で半角カナを判定するには、顔文字みたいな正規表現を使うと良いみたい。なお、下記では全角になっていますが、「。」「゜」は半角です。 print if /[。-゜]/; 以下、確認スクリプト utf8hankana-test.pl。 begin 755 utf8hankana-test.pl.gz M'XL("+7C4D4``W5T9CAH86YK86YA+71E<W0N<&P`1<_)2L-@$,#Q^SS%9[Q8 ML>0J1H1"]>K!>'()M48-U"A)BP<1M.[5NN];L>[[OFM]F"IXZROX5P\._&!F MF!F8XB(]X7MZB^/JW;87DV+UF4Y]'<SEDR?YP51)O5D3+`](PK>5'_><:-SX MS7L
ftnk 2007/09/11
Perl

utf-8

Regexp

encoding
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx