タグ

perlに関するkat0usiのブックマーク (53)

  • 専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説

    はじめに  テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。

  • perl 5.12

    少し遅れをとってしまいましたが、Fedora 14 Alpha を試しました。 このバージョンでは、perl が 5.12 にアップしていて、手持ちのスクリプトを試したら、一部動かなくなっていました。 調べたところ、split した結果が @_ に入ることを期待したコードがNGでした。ラクダVOLUME 2 28章 特殊変数によると、旧式の機能なので使うなとのこと。 実際にやっちゃっていたコードは次のうようなものです。 ... split("\n", $temp) ; return @_ ; } これを、 ... return split("\n", $temp) ; } と修正しました。今考えれば、なぜ、分割していたのかと思えますが、perl の理解が足りなかったということですね。

    kat0usi
    kat0usi 2010/10/29
  • 複数ファイル内の文字列を置換して上書き保存する

    一発で複数ファイル内の文字列を置換して上書き保存します。一括置換です。 置換ですが、1ファイルとかなら楽なのですが、ファイルが大量にあるとやってられません。find コマンドとperl を組み合わせて使ってます。 Last Update : 2007年04月29日 複数ファイル内の文字列を置換して上書き保存する 項目 文字列を置換して上書きする 複数のファイルに対して行う 1. 文字列を置換して上書きする まず、文字列を置換して同じファイル名で保存するコマンドの説明です。 具体的に例をあげて説明します。 index.htmlの<html>を<html lang="ja">に置換します。 perlを使ってます。 書式は以下の通りです。 書式 perl -p -i -e 's/検索文字列/置換文字列/g' 対象ファイル名 例 [hoge@hoge ~]$ head -2 index.html

    kat0usi
    kat0usi 2010/10/28
    複数ファイル内の文字列を置換して上書き保存する : find . -type f | xargs perl -i -pe 's/~/~/g;'
  • 移転しました

    移転しました

    kat0usi
    kat0usi 2010/09/15
  • Perl の数値変換

    Last Updated: 2002/03/26 Perl で、16進文字列、10進整数、2進文字列、バイナリー文字列の相互変換を行うための、スクリプトメモです。 特に断っていない限り、Perl 5.001 以上で動作します。 目次 16進文字列からの変換 10進整数からの変換 2進文字列からの変換 バイナリー文字列からの変換 16進文字列→10進整数への変換 hex() 関数は、16進文字列を整数値に、手軽に変換できます。 $num10 = hex("4A"); # $num10 には 74 が入る $num10 = hex("FFFFFF"); # $num10 には 16777215 が入る 余談ですが、数値リテラル中では 0x に続けて 16 進数で記述することで、数値を表すことができます。 $num10 = 0x4A; # 74 $num10 = 0xFFFFFF; # 1677

    kat0usi
    kat0usi 2010/09/09
    2/10/16進文字列変換
  • 現代的なPerlの記述方法一覧 - Perl入門ゼミ

    Perl › here Perl5.8以降における標準的なPerlの書き方を解説します。 インターネットで検索するとPerl4のころの古い記述がたくさんあります。また書籍などの多くもPerl4の記法で書かれています。Perl4の記法は複雑になりやすく間違いを生みやすいのでこれからPerlを書く人はPerl5の現代的な記法で記述することを強くお勧めします。 strictプラグマとwarningsプラグマ (必須) strictプラグマとwarningsプラグマを有効にします。 use strict; use warnings; use strict;とuse warnings;の2行はスクリプトの最初に必ず記述してください。これらはPerlの文法チェックを厳しくするためのものです。面倒だという軽い気持ちでこれを記述しないと後々当に面倒なことになります。 use strict;とuse wa

    現代的なPerlの記述方法一覧 - Perl入門ゼミ
    kat0usi
    kat0usi 2009/11/12
  • CPANモジュールのインストール時に自動でデフォルト選択をする方法 - Craftworks Tech Blog - Branch

    何通りかあります。 yes コマンド yes '' | cpan -i Some::Module yes に空文字列を引数に与えないと、'y' をパイプに送ってしまい、デフォルト値選択ではなく、必ず y を選択してしまうので注意! 環境変数 PERL_AUTOINSTALL PERL_AUTOINSTALL='--defaultdeps' cpan -i Some::Module or export PERL_AUTOINSTALL='--defaultdeps' cpan -i Some::Module 詳しくは、Module::AutoInstall の ENVIRONMENT の項を参照のこと。 cpan の prerequisites_policy オプション cpan> o conf prerequisites_policy follow cpan> o conf commit

    CPANモジュールのインストール時に自動でデフォルト選択をする方法 - Craftworks Tech Blog - Branch
    kat0usi
    kat0usi 2009/10/10
    yes '' | cpan -i モジュール名
  • #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found

    2009年09月13日13:00 カテゴリLightweight Languages #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 駄目です。 [を] Perl の utf8 まわりのおまじない 最近良く使うおまじない、というかイディオム。 utf8::decode($text) unless utf8::is_utf8($text); こういう場合は、Encode::decode_utf8()でないと。 以下をごらんください。 #!/usr/bin/perl use strict; use warnings; use Encode; use Devel::Peek; for my $bytes ( "\x2F", "\xC0\xAF", "\xE0\x80\xAF", "\xF0\x80\x80\xAF" ) { my $u

    #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found
    kat0usi
    kat0usi 2009/09/17
  • Perl、Androidアプリ開発の可能性 | エンタープライズ | マイコミジャーナル

    When you need perl, think perl.org AndroidにおいてPerlによるプログラミングが現実のものとなる可能性がでてきた。Perl coming to Android phones - Perlbuzzが伝えるところによれば、Android Scripting Environment (ASE)のリポジトリにPerlのディレクトリが追加されたという。たしかにASEのリポジトリにすでにいくつものPerl関連のソースコードが収められている。ASEに対する要望受付はすでに締め切られているため、ASEの次期安定版ではPerlが実行できるようになっているのではないか、という内容だ。 ASEリポジトリにあるPerlサンプルコード - hg/perl/ase/scripts/hello_world.pl Googleは6月8日(米国時間)、Android携帯でスクリプト

  • Perl で半角カナと全角カナの変換をする : Serendip – Webデザイン・プログラミング

    Perl を使って半角カタカナと全角カタカナの変換をするスクリプトを、標準モジュールの Encode.pm と Unicode::Japanese と Lingua::JA::Regular::Unicode を使ってそれぞれ変換スクリプトを書いてみる。 まずは、標準モジュールの Encode.pm を使った場合。 変換を文字コード euc-jp で行うために、変換前と変換後に utf-8 との文字コード変換を行う必要があった。 use Encode; use Encode::JP::H2Z; my $str_z = "Hello World.全角カタカナデス。 12345 67890"; my $str_h = "Hello World.全角カタカナデス。 12345 67890"; # 全角カナ→半角カナ Encode::from_to($str_z, "utf-8", "euc-j

    kat0usi
    kat0usi 2009/08/19
  • perl - で全角半角変換をモダンに行う : 404 Blog Not Found

    2009年06月06日01:15 カテゴリLightweight Languages perl - で全角半角変換をモダンに行う 今ならLingua::JA::Regular::Unicodeが第一選択肢ですが、こういう方法もあるということで。 Perl で半角カナと全角カナの変換をする : Serendip - Webデザイン・プログラミング Perl を使って半角カタカナと全角カタカナの変換をするスクリプトを、標準モジュールの Encode.pm と Unicode::Japanese と Lingua::JA::Regular::Unicode を使ってそれぞれ変換スクリプトを書いてみる。 CORE Moduleのみを使うという縛りをかけています。 #!/usr/bin/perl use 5.008001; use strict; use warnings; use utf8; us

    perl - で全角半角変換をモダンに行う : 404 Blog Not Found
    kat0usi
    kat0usi 2009/08/19
    Unicode-savvyなPerlの事実上の最古Versionは5.8.1と覚えておくとよいでしょう
  • perl - use CGI; use Encode; # 非英語Webプログラミング3原則 : 404 Blog Not Found

    2009年06月23日15:30 カテゴリLightweight Languages perl - use CGI; use Encode; # 非英語Webプログラミング3原則 これは、実はPerlに限らず未だに事実だったりするのですが.... Perl でフォームデータから UTF-8語文字をとりだす方法 (プログラミングの小石・大石) UTF-8 のフォームによっておくられたデータのなかから日語文字をとりだすことは,日Perl CGI プログラマならたいてい必要になることである. ところが,その方法は意外に確立されていないようにみえる. しかし、元発言の方法は先祖帰りすぎるので。 Perlプログラマー以外にも、Webプログラマーであれば有用なentryです。 PerlでWebプログラミングする場合の三原則 QueryはCGIモジュールで処理する 文字コードはEncode

    perl - use CGI; use Encode; # 非英語Webプログラミング3原則 : 404 Blog Not Found
    kat0usi
    kat0usi 2009/06/24
    QueryまたはPATH-INFOに文字コード情報を含める
  • 【インフォシーク】Infoseek : 楽天が運営するポータルサイト

    kat0usi
    kat0usi 2009/06/17
    ハッシュキーに引用符があってもなくてもOK
  • IRCのチャンネルのログを取るBOTスクリプト改良 - Lazy Programmer :-p

    http://d.hatena.ne.jp/tomyhero/20070911/1189489871 複数のチャンネルをログる用に修正した。ログファイル指定じゃなくて、ディレクトリ指定に変更 #!/usr/bin/perl use strict; use warnings; use POE qw(Sugar::Args Component::IRC); use Class::Inspector; use IO::All; use Getopt::Long; use DateTime; use File::Spec; my @channels = (); my $logdir = '/tmp/'; my $nick = 'logbot'; my $server = 'localhost'; my $port = 6667; my $result = GetOptions ( "channel

    IRCのチャンネルのログを取るBOTスクリプト改良 - Lazy Programmer :-p
    kat0usi
    kat0usi 2009/04/12
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    kat0usi
    kat0usi 2009/04/12
  • Net::IRC - Internet Relay ChatプロトコルのPerlインターフェース - perldoc.jp

    名前¶ Net::IRC - Internet Relay ChatプロトコルのPerlインターフェース 概要¶ use Net::IRC; $irc = new Net::IRC; $conn = $irc->newconn(Nick => 'some_nick', Server => 'some.irc.server.com', Port => 6667, Ircname => 'Some witty comment.'); $irc->start; 説明¶ Net::IRCへようこそ.これは進行中のプロジェクトです.Net::IRCは最初Perl で素早くIRCスクリプトを書くためのツールとして計画されましたが,Perlによ るIRCプロトコル(RFC 1459)の包括的な実装に成長しました.EFnetIRCチャン ネル#perlの数人のメンバによって開発され,チャンネル#net-

    kat0usi
    kat0usi 2009/04/11
  • 『CPANで対話入力をデフォルトで設定する方法』

    CPANでインストールを行おうとするとたまにデフォルト値付きで問い合わせしてくるモジュールがある。 一個位なら別に構わないけどPlaggerなんぞtestしようもんならとてもウザイ。 んでいろいろ調べてみると PERL_MM_USE_DEFAULT=1 って言うのを環境変数にセットしてからCPANするとデフォルト値で先に進んでくれる。 これにSCREENを組み合わせてバックグラウンドで走らせると手間が少なくなる。 ただし。デフォルト値が嫌な場合は自動的に進んでしまうのでそのモジュールの入れなおしをしなければならない時もあるから注意した方がいい。

    kat0usi
    kat0usi 2009/04/11
    export PERL_MM_USE_DEFAULT=1
  • perl - tnek-cgi@CodeRepos - nms-cgi 再び : 404 Blog Not Found

    2009年04月03日10:30 カテゴリLightweight Languages perl - tnek-cgi@CodeRepos - nms-cgi 再び これを見ていたたまれなくなったので。 perlでアップローダを作ったのですが、クラックを受けている様なんです。 ./up の配下にしかアップロード出来ない様にしたつもりが、その上のディレクトリに.htaccessやらi.. - 人力検索はてな /lang/perl/tnek-cgi/trunk ? CodeRepos::Share ? Trac これはいったい何かというと、 nms - web programs written by experts の日版みたいなものです。nms-cgiにもファイルアップローダーがなかったので作りました。その他の「よく使うCGI」なども、ここを起点にみんなで添削してそれを配布、という形にすれば

    perl - tnek-cgi@CodeRepos - nms-cgi 再び : 404 Blog Not Found
    kat0usi
    kat0usi 2009/04/03
  • 【インフォシーク】Infoseek : 楽天が運営するポータルサイト

    日頃より楽天のサービスをご利用いただきましてありがとうございます。 サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。 お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。 メンテナンスが終了次第、サービスを復旧いたしますので、 今しばらくお待ちいただけますよう、お願い申し上げます。

    kat0usi
    kat0usi 2009/03/22
    Perl 5.004以降では、自動的に最初にsrand(time)が呼び出されるので、srandは省略することができる
  • 第2回 mro:次のメソッドはどこ? | gihyo.jp

    モダンなクラス/オブジェクトのあり方は? Perlではそもそもオブジェクトという考え方自体が、Perl 5(Perl 7歳)ではじめて登場した、後付けのものでした。また、その実装も非常におおらかなものだったため、より「格的な」オブジェクト機構を備えた言語のユーザからはしばしば批判されてきました。 ただし、転んでもただでは起きないのがPerlハッカーたちのよいところ。そのような批判を糧に、「⁠モダンPerl」の世界でもっとも激しく、多様に進化してきたのがこの分野です。 今回はそのようなクラス/オブジェクトの進化の一例として、クラスの継承とメソッドの解決順序にまつわる話題をまとめていきます。 継承によるクラスの拡張 伝統的なbaseプラグマを使ってクラスを拡張する場合、継承元と継承先に同名のメソッドがあれば継承先のメソッドだけが優先的に実行されます。 use strict; use warn

    第2回 mro:次のメソッドはどこ? | gihyo.jp
    kat0usi
    kat0usi 2009/03/12
    継承するのも大変だ