タグ

ブックマーク / nais.to/~yto (8)

  • [を] Dynamic Programming による類似文字列マッチの実装例

    Dynamic Programming による類似文字列マッチの実装例 2007-01-22-4 [Programming][Algorithm] 「Modern Information Retrieval」(8.6.1 p.216) での Dynamic Programming (DP) の解説のところのアルゴリズムを 素直に Perl で実装したみた。 さらにマッチ箇所取り出しロジックも実装してみた。 DP はいわゆる「類似文字列検索(あいまい検索)」に使うと 便利なアルゴリズム。 実は、大学院でも前の会社でも、PerlやらC++やらで実装して使ってた。 単純ながら使い勝手もよく、まさに現場向きかと。 grep 式に頭から見ていくので計算量的にはイマイチなのだが、 転置インデックス検索などで範囲を絞ってから適用すれば実用上問題ない。 ■定義みたいなの Q1. 二

  • [を] Perl で配列をシャッフル

    Perl で配列をシャッフル 2006-11-28-2 [Programming] Perl で配列をシャッフルする方法のメモ。 最近よく使うので。 Matthew McEachen :: Hints & Kinks :: shuffle in perl http://matthew.mceachen.us/archives/000034.html use strict; use List::Util 'shuffle'; my @lines = <>; print shuffle( @lines ); Recipe 4.17. Randomizing an Array (Perl Cookbook) http://www.unix.org.ua/orelly/perl/cookbook/ch04_18.htm # fisher_yates_shuffle( \@array

  • [を] Perlのプロファイラ - Devel::DProf

    Perlのプロファイラ - Devel::DProf 2006-11-06-3 [Programming] Devel::DProf http://metatoys.org/propella/tips/Devel_DProf.html DProfの話は、「プログラミングPerl 第3版 VOLUME 1」の 第20章「Perlデバッガ」に載っています。 デバッガ(perl -de0)の話も詳しいです。 で、プロファイルの使い方。 例えば、foo.pl というプログラムをプロファイリング。 % perl -d:DProf foo.pl で、tmon.out というファイルができます。整形して見るには dprofpp。 % dprofpp Total Elapsed Time = 54.58411 Seconds User+System Time = 49.11048 Sec

    dann
    dann 2006/11/08
    で、tmon.out というファイルができます。整形して見るには dprofpp。
  • 簡単な日本語文区切りプログラムの雛型

    since 2003-03-27, last update 2003-03-29 山下達雄 はじめに この文書の目的は、 「日語 (EUC-JP) の処理を jperl や最新の perl や特別 なモジュールなしの環境でも安心して行えるようにするノウハウ」 の紹介です。 まあ、なんというか、バッドノウハウですね。 「過去に jperl で書かれたプログラム遺産をどうやって perl で動かすか?」という問題も解決するかもしれません。 例として、日語の文切りを取り上げます。 問題 EUC-JP で書かれた日語テキストファイルを仮定して、 「。」や「.」をヒントに自動的に文を区切るプログラムを考えます。 いきなりですが、昔あった jperl というのを使えば、 以下のようなプログラムを書くだけでおしまいです。めでたし、めでたし (プログラムも EUC-JP で書かれていると仮定します)

    dann
    dann 2006/10/23
  • [を] 検索結果キーワードをハイライトするPerlモジュール

    検索結果キーワードをハイライトするPerlモジュール 2006-02-11-1 [Programming] HTML::ColorKeywords <http://nais.to/~yto/tools/pm/src/HTML-ColorKeywords-0.1.tar.gz> <http://nais.to/~yto/tools/pm/src/> (←最新版を調べるときはこっち) キーワード(複数)とマッチする箇所を span + background-color で ハイライトするPerlモジュールを作ってみました。 そもそも、Yasazon や AsamasiBookSearch で使ってたやつなのです。 このたび練習がてらPerl Module化[2006-02-03-3]してみました。 ↓こんな感じでハイライト。 なお、色はYahoo!のWeb検索結果のキーワード

  • [を] キーワード抽出モジュール Lingua-JA-Summarize

    キーワード抽出モジュール Lingua-JA-Summarize 2006-04-26-2 [Programming][NLP] Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/summarize.php サイボウズラボの奥一穂さんによるキーワード抽出を行うPerlモジュール。 形態素辞書にある単語コスト(解析に使用するやつ)を TF-IDF っぽく使っ てキーワード抽出する手法。手軽にさくっと使えて非常に良い感じです! これを使っていろいろアサマシいことなどもやってみようかと思います! 以下、コピペしたら動くサンプルです。threshold がデフォルトのまま の値だとキーワードが抽出されないことがあるので、1 にしています。 #!/

    dann
    dann 2006/10/19
  • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

  • [を] Perlモジュール作成に関するリンク

    Perlモジュール作成に関するリンク 2006-02-03-3 [Programming] Perlモジュール作成に関するリンク。自分用メモ。 - (貧乏な人のための)Perl モジュールの作り方。 : torus solutions! <http://www.torus.jp/memo/x200311/PerlModule.rd.html> - プログラミングPerl〈VOLUME2〉に記述が。 by とおるのウェブロ。: Perl のモジュールを作る。 <http://weblo.torus.jp/archives/000192.html> - ExtUtils::MakeMaker::Tutorial - MakeMaker を使ったモジュールの書き方 <http://fleur.hio.jp/~hio/perldoc/modules/ExtUtils/ ExtU

    dann
    dann 2006/10/06
  • 1