Perlでカタカナひらがな変換 2006-08-07-5 [Programming] Perlでカタカナひらがな変換をやろうと思ったら、 Unicode::Japanese を使うのが手軽なのかな。 - 山科 氷魚 / Unicode-Japanese - search.cpan.org http://search.cpan.org/dist/Unicode-Japanese/ とりあえず使うことにしてみた。 以下、適当なサンプルプログラム。 #!/usr/bin/perl # 入力はEUC-JPのTSVで住所とその読み仮名(カタカナ)。 # 出力はUTF-8のTSVで住所とその読み仮名(カタカナ+ひらがな)。 use strict; use warnings; use Unicode::Japanese; while(<>) { chomp; my @col = split("\t",
ずいぶん寒くなりましたが、お元気ですか? 元気があれば何でもできる。 謎の人です。こんにちわ。机がないので立ち仕事ですよ!(嘘) みなさん、UserAction Extension、使ってますか? Sleipnir の様々な機能を JScript/VBScript で開発することが可能になります。 ユーザーが作成したスクリプトがアクションとして登録されるので、メニューやマウスジェスチャなどから呼び出すことができるようになります。 私も、自分がちょこっと使うための「オレオレスクリプト」を日々作ってますよ。 Perl で。 Perl で ActiveScript な情報は意外に少ないので、以下、簡単に手順を。 ActivePerl をインストール resources/languages/default/english/ScriptEngine.ini に一行追記 pl=PerlScript p
前々回のエントリで紹介した重要部分を抽出するperlモジュール「HTML::Feature」ですが、その後ジワジワと反響があって、意外なことにid:fubaさんから「HTML::Elementでデータを返してくれるといいなぁ」というリクエストまでいただくほどに。 でようやく今週末に時間がとれたので、遅ればせながら対応してみました。 http://search.cpan.org/~miki/HTML-Feature-2.0.3/ 精度面でもわずかながらチューンアップを施しています。多分少しだけ精度が高くなっているはず。 重要部分のHTML::Elementを取得する方法ですが、こんな感じでOKです。 use HTML::Feature; my $feature = HTML::Feature->new; my $result = $feature->parse("http://hogehog
以前からCPANで公開していたモジュールがあるんですが、日本語での解説ドキュメントがなかったのと、最近大幅にブラッシュアップしたので、せっかくなので紹介記事を書きます。 HTML::Feature - Extract Feature Sentences From HTML Documents 「えいちてぃえむえる::ふぃーちゃー」と読みます。 ブログやニュース記事など様々なHTML文書から「重要部分」を推測して抽出してくれる perl モジュールです。 「重要部分」とはいわゆる「本文」のことですね。本文抽出とか焦点抽出とか色々な言い方があるかと思いますが、まぁ要するに特徴的な部分を推測して抽出するわけです。 どういうものか。 例えばブログ記事からヘッダーやフッター、その他のナビゲーションブロックを除いた「記事らしき部分」だけを切り取りたい、とします。 ぱっと思いつくのは「特定のコメントタグ
This domain may be for sale!
ヽ | | | |/ 三 す 三 /\___/\ 三 ま 三 / / ,、 \ :: \ 三 ぬ 三. | (●), 、(●)、 | ヽ | | | |/ /| | | |ヽ . | | |ノ(、_, )ヽ| | :: | 三 す 三 | | |〃-==‐ヽ| | .::::| 三 ま 三 \ | | `ニニ´. | |::/ 三 ぬ 三 /`ー‐--‐‐―´´\ /| | | |ヽ(コメントを残す) タバスコ
HTTP Response decoded_contentをちゃんと使ってみる HTTP::Responseに格納された日本語ページをちゃんとデコードしてunicodeで持ちたかったので最初 my $body = $response->decoded_content(); ってやってたんだけど、これだとcp932 (!= Shift-JIS)でこけることが多くて、とりあえずヘッダーとMETAヘッダで見るかと思って以下のようにして、decoded_content() にcharsetが必要であれば渡されるようにした。 my %opts; if ( my $ct = $res->content_type ) { if ($ct =~ /charset=Shift_JIS/) { $opts{charset} = 'cp932'; } } if ( my $ref = $res->content
OOスタイルでファイルIOを行うためのIO::Fileモジュール。 オブジェクト指向(OO)スタイルならファイルハンドルをがりがりいじってないでIO::File、ということの他に、IO::Fileオブジェクトであればサブルーチンやメソッドなどとの受け渡しがスマートなども良いところです。 IO::Fileモジュール自体はIO::HandleとIO::Seekableを継承していて、IO::Handleのread、write、getline、getlines、printなどの読み書きのためのメソッドや、IO::Seekableのseekなどのメソッドを使うことができます。 ファイルを開くにはopenメソッドを、閉じるにはcloseメソッドを使います。 IO::Fileオブジェクトをnewメソッドで生成してから、openメソッドでファイルを開きます。 use IO::File; my $io =
テキストファイルの各行に、perlの配列でアクセスできるモジュールなのです。変更は随時ファイルに反映されるので、用途によっては便利、用途によっては不便。 個人的には、頻繁に使ってます。:-) ちょっとテキストファイルをどうにかしたいだけ、って時とか、使い捨てプログラムには、とりあえず早く書けていいです。ログファイルを部分的に取リ出して、処理してブラウザで見るとか(この用途に限ると`tail -n 20 ファイル名`;とかで済ますこともあるのですが)。 use Tie::File; tie my @array, 'Tie::File', "filename" or die; # 配列は0から始まるので、[0]が1行目。 $array[13] = 'blah'; # ファイルの14行目を'blah'に変更 print $array[42]; # ファイルの43行目をprint $n_recs
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く