タグ

perlとjapaneseに関するpoppenのブックマーク (18)

  • Perl5 で半角カタカナにマッチする正規表現を簡単にかく方法について - tokuhirom's blog

    にしても、こちらのサイトでも言われていますが、なぜ半角カナ専用のUnicodeブロックがないのかと小一時間(ry http://blog.livedoor.jp/sasata299/archives/51194035.html http://d.hatena.ne.jp/pasela/20081003/ll_unicode ということで、 sub InHankakuKatakana { "FF65\tFF9F" }という一行をはっつけると、つかえるようになりますね。 #!/usr/bin/perl use strict; use warnings; use utf8; use Test::More; sub InHankakuKatakana { "FF65\tFF9F" } ok("\x{FF65}" =~ qr/\p{InHankakuKatakana}/); ok("abc" !~

  • Perlで日本語(ISO-2022-JP)メールを送信(まとめ) - kopug memo

    UTF-8で作成されたメール文をMIME::Lite及びEncodeを使用してメールを送信をする。 そこで問題となってくるのが下記の3点。 1.チルダ(全角)等の文字化け("〜 ‖ − ¢ £ ¬ ") 2.機種依存文字が含まれていた場合の対応 3.MIME::Lite で smtp送信する場合、Return-Pathが有効にならない 1.チルダ(全角)等の文字化け("〜 ‖ − ¢ £ ¬ ")に関する解決方法: これは有名らしいのですが、Encode::JPが採用している UnicodeConsortium の写像表 に問題があるとかで、 一部の文字が化けます。チルダとか。 しようがないので こんな風に対応しておきました。 my %map = ( "\x{ff5e}" => "\x{301c}", # 〜 (1-33, WAVE DASH) "\x{2225}" => "\x{201

    Perlで日本語(ISO-2022-JP)メールを送信(まとめ) - kopug memo
  • Ruby,Perl,Pythonのメモ〜文字コードと文字列長〜 - numozoの日記

    メモ: ・日語の取り扱いのめも その2(文字列長、バイト長について) ・バージョンはruby 1.9.1p129,perl v5.10.0,Python 3.0.1 ・バージョンが古いと動かない ・ついでに 404 Blog Not Found:perl, python & ruby - chr() vs. Unicode と 404 Blog Not Found:perl, python & ruby - ord() vs. Unicode の情報は古いので、今の書き方を書いとく ruby perl python 文字列長 文字コード指定が正しいなら文字数 utfフラグ付きなら文字数 code unit数(文字数でない)*1 configureで--with-wide-unicodeすれば文字数 ※1ただし、コンパイル時のオプションで変えられるらしい 参照:DSAS開発者の部屋:Pyt

    Ruby,Perl,Pythonのメモ〜文字コードと文字列長〜 - numozoの日記
  • ルビ振りAPIで「ふりがな」を付けよう!

    ルビ振りAPIで「ふりがな」を付けよう! 2008-10-11-2 [Programming][NLP] Yahoo!デベロッパーネットワークで、ちょっと前に「ルビ振りAPI」が公開されました。 Yahoo!デベロッパーネットワーク - テキスト解析 - ルビ振り http://developer.yahoo.co.jp/jlp/FuriganaService/V1/furigana.html ルビ振りWebサービス 漢字かな交じり文に、ひらがなとローマ字のふりがな(ルビ)を付けます。 この記事では、その特徴と簡単なサンプルプログラムを紹介します。 特徴 ふりがなを付けるだけなら形態素解析API[2008-04-05-5] を使ってもよいのですが、このルビ振りAPIは 対象とする漢字グループを選択できるところがポイントです。 例えば、小学N年生向けを選択すると(N-1)年生までに習う 漢字

    ルビ振りAPIで「ふりがな」を付けよう!
  • kcode - 各種文字コードを表示する

    更新日: $Date: 2005-11-20 08:29:56 $ UTC ($Revision: 1.2 $) 公開日: 2004/04/01 目的 「Shift_JISで『あ』のコードってなんだっけ?」とか「UCS-2のU+3042ってどの文字だっけ?」といった際に、 ターミナルで手軽に確認できるようにするツールである。 機能 標準入力もしくはコマンドライン引数から、 文字そのものか文字エンコーディングの16進数表記を受け取り、 各種文字エンコーディングでの16進数表記とUnicode, IncのUnihan DatabaseのURLを出力する。 出力する16進数表記の文字エンコーディングの種類は以下の通り。

  • 和名配色 for Perl - NeverBlog::Likk::Unexistable;

    パソコンが示す色に注意しよう。色は色名から選ぶ。 | BPnetビズカレッジ | nikkei BPnet 〈日経BPネット〉 JIS慣用色名 - Wikipedia 辺りを読んで、perlモジュール Color::Japanese をサクっと書きました。 作成するに当たって、color-japanese - 日の色名パレット ライブラリ - *Trace Output* も見たのですが、rubyサッパリ分かりませんので色リスト部分だけ頂きました。 以下モジュール内容 package Color::Japanese; use strict; use warnings; our $VERSION = '0.1'; our $dic_name; our $dic_code; while(<DATA>){#リストから逆・正引き辞書作成 chomp($_); my ($code,$hebon_c

    和名配色 for Perl - NeverBlog::Likk::Unexistable;
  • perl - Encode::Alias does not realias canonicals : 404 Blog Not Found

    2006年11月19日22:30 カテゴリLightweight Languages perl - Encode::Alias does not realias canonicals 全国のPerl Mongerのみなさんこんばんわ。Encode Maintainerの弾でございます。 非常に稀ながら、知っていないとbugと勘違いするfeature (少なくとも undocument だった!) があったのでお知らせします。 以下のtest scriptをご覧下さい。 use strict; use warnings; use Encode; use Encode::Alias; use Test::More tests => 3; define_alias( qr/sjis$/i => '"cp932"' ); # Look here! my $char = "\x{FF5E}"; my

    perl - Encode::Alias does not realias canonicals : 404 Blog Not Found
  • hide-k.net#blog: perlで機種依存文字を取り扱う

    「D-5 出張版:機種依存文字入りのShiftJISを扱う」を読んで大変タイムリーだったので実験して見ました。 はてぶのコメントでmiyagawaさんが decode("cp932", $buf) でいい気が とおっしゃられているので こんなんで実験してみました。 JISやEUCを取り扱うのでEncode::Unicode::Japanseを使って見ました。 取り扱うtext.txtは機種依存文字や半角カタカナを含んだこんなファイル。 #!/usr/bin/perl use strict; use warnings; use Encode::Unicode::Japanese; use Encode qw/encode decode/; _encode (qw/text.txt shift_jis sjis-utf8.txt utf8/); _encode (qw/text.txt shi

  • いわゆる全角スペースが必要な場合の逃げ道 - *Backtrace* (2006-10-05)

  • Lingua::JA::Hepburn::Passport でヘボン式ローマ字変換: blog.bulknews.net

    Lingua::JA::Hepburn::Passport でヘボン式ローマ字変換 ひらがな/カタカナからヘボン式ローマ字に変換するモジュール をリリースしました。 同じようなことをするモジュールは Lingua::JA::Romaji, Linguua::JA::Romanize::Kana, Text::Kakasi といろいろあるんですが、日の外務省パスポートのルール にあるヘボン式に則ったものは1個もなかったので車輪の再発明。 use utf8; use Lingua::JA::Hepburn::Passport; my $hepburn = Lingua::JA::Hepburne::Passport->new; $hepburn->romanize("みやがわ"); # MIYAGAWA $hepburn->romanize("おおの"); # ONO $hepburn->r

  • Perl Tips - Perl で、iモード (ケータイ) 用に全角カナを半角カナに変換したい

    Unicode::Japanese を使う。つまりは SJIS に変換するが絵文字とかもこのモジュールでは考慮されている。このモジュール、モバイル用にいろいろ考えられている。こんな感じ。絵文字が入ったテキストでは、Jcode などを使うと文字化けして使いものにならない。$isiMode は、モバイルでアクセスされたときのフラグ用変数。この変数のために前もって自分で関数を書いておくこと。 使用するモジュール use Unicode::Japanese; # C コンパイラが使えれば XS も利用できる #!/usr/bin/perl my $text = 'テスト'; my $output = print4i(¥$text); sub print4i { my $str = shift; use Unicode::Japanese; $$str = Unicode::Japanese->ne

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    poppen
    poppen 2006/08/08
    > Perlでカタカナひらがな変換
  • Unicode::Normalize で遊ぶ - daily dayflower

    Unicode の規格では,文字の合字(リガチャ等)等を統一的に扱えるように,「正規化」という処理が仕様として定まっています。この正規化処理のうち「互換性分解」という処理を行うと副作用として半角カナを全角カナに変換できます(逆に全角カナ→半角カナはできません)。 #!/usr/bin/perl use strict; use utf8; use Encode; use Unicode::Normalize; my $src = 'ポンジュース'; my $dst = Unicode::Normalize::NFKC($src); print Encode::encode('utf8', "${src} => ${dst}\n"); # OUTPUT is: ポンジュース => ポンジュースUnicode の正規化についてはperl5.8のUnicodeサポート および http:/

    Unicode::Normalize で遊ぶ - daily dayflower
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • Perl5.8 の UNICODE 対応

    perl は 5.8 から Unicode(utf-8) がサポートされました.5.6 でも Unicode に対応はしていましたが,ぜんぜん使い物にならず,ようやく 5.8 でまともに使えるようになったということです.ただせっかく使えるにもかか わらず perldoc などを見てもイマイチ使い方がわからないので,独自にまと めてみたのがこのページです. 誤った書き方や勘違いをしてい ることもあるので,形式的ですがこのページの内容は無保証です. 内容 文字コード変換 perlIO jperlからの移行 UTF-8フラグ 文字コード自動判別 Unicode Standard Unicode 正規化 その他 参考資料 文字コード変換 とりあえず perl5.8 で新しく組み込まれた機能を見るために,euc-jp から shift_jis への変換スクリプトをいくつか載せます. openを利用し

  • Perl 5.8.x における日本語コード変換のメモ

    Perl 5.8ではEncode.pmが標準モジュールとなり、多バイト文字を標準で簡単に扱えるようになりました。が、jcode.plやJcode.pmを用いたコード変換の経験があると、逆にこれが仇となって文字化けの嵐に遭います。(私の場合そうだったというだけで、普通はそんなこと無いのかもしれないのですが。)漸く最近になって基的な考え方が飲み込めるようになって来たので、この辺をまとめておこうと思います。なお、メモは新たにPerl 5.8.x的なPerlスクリプトを書く際に気をつけることをまとめたものであり、基的には既存のスクリプトにPerl 5.8 + Encode.pmを適用するためのものではありません。また、utf8でスクリプトを書くことを前提にしています。が、どちらにせよ、この知識は参考になると思います。(たぶん。) 文冒頭ですが、まず参照先を示しておきます。以下のドキュメント

  • 404 Blog Not Found:perl - ('ぁ' .. 'ん') は動きません

    2006年06月08日17:30 カテゴリLightweight Languages perl - ('ぁ' .. 'ん') は動きません PerlのRange Operator, ..は便利なものですが、限界もあります。 my @alpha_small = ('a' .. 'z'); は期待通りに動いても、 my @hiragana = ('ぁ' .. 'ん'); はそうはならないのです。 ただし、簡単な解決策もあります。 my @hiragana = map { chr } (ord('ぁ') .. ord('ん')); Perl 5.8.1 以降は tr/ぁ-ん/ァ-ン/も、qr/[α-ω]/も使えるのに、範囲演算子はそうでないというのはバグに見えないこともないですが、私自身はこれでもいいと思います。というのも範囲演算子の場合、$a .. $bという変数も受け入れなければならないから

    404 Blog Not Found:perl - ('ぁ' .. 'ん') は動きません
  • daily dayflower - 半角←→全角変換,Unicode::Japanese に未公開機能が…

    2008-10-21 追記 いまだに(ありがたいことですが)検索で飛んできたりブクマされたりというのがちょいちょいあるので,最新動向を書いておきます。 id:tokuhirom さんが Lingua::JA::Regular::Unicode という Pure Perl Module をリリースなさいました(→ http://d.hatena.ne.jp/tokuhirom/20081018/1224300947)。 あなたが作っているアプリで文字列まわりを Unicode::Japanese インスタンスですべて持ちたいわけでなければ(そして,たいていのばあい,持つ必要はないのですが),この Lingua::JA::Regular::Unicode を使うのがベターです。依存性もなく,とても軽量ですので。 2008-10-21 追記おわり ウェブアプリを作っていると,ユーザが入力した半角

    daily dayflower - 半角←→全角変換,Unicode::Japanese に未公開機能が…
  • 1