タグ

cpanに関するknobmituのブックマーク (7)

  • キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)

    いわゆる「Web2.0」っぽい要素である「タグ」。 一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。 ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。 動作要件の敷居が低い 辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる 希望の結果に近づけるためのチューニングが可能 モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます(

  • YappoLogs: Lingua::JA::Summarize::Extract - 日本語文章のサマリ抽出

    Lingua::JA::Summarize::Extract - 日語文章のサマリ抽出 なんとなくPlaggerドリブンで日語の文章の中から特徴的な文節を抽出するモジュールを書きました。 具体的にはGetSenというWebサービスをCPANモジュールで使いたかったという感じです。 CPANに上げてあります。 Lingua::JA::Summarize::Extract 簡単な使い方は use strict; use warnings; use utf8; use Lingua::JA::Summarize::Extract; my $extracter = Lingua::JA::Summarize::Extract-&gr;new; my $text = "日語の文章を沢山書きます"; my $result = $extracter-&gr;extract($text); my $

  • HTML::Selector::XPath をリリース: blog.bulknews.net

    HTML::Selector::XPath をリリース CSS Selector in Perl とか subtech - Bulknews::Subtech - CSS selector to XPath あたりで議論していた CSS 2 Selectors to XPath コンパイラなモジュールをつくって、CPAN に HTML::Selector::XPath としてリリースしました。 使い方は naoya さんが先に書いてますが、HTML から正規表現を使うことなくスクレイプするのに便利。たとえば Mixi にログインしてマイミク最新日記と、1件目のタイトル、文を抜き出すコードが、以下のようにかけます。 #!/usr/bin/perl use strict; use warnings; use utf8; use Encode; use HTML::Selector::XPat

  • HTML::TreeBuilder + CSSセレクタがいい感じな件

    先日 PerlCSSセレクタ で HTML::Selector::XPath がいい感じであると思ったわけですが、CSS セレクタだけじゃなく何気に HTML::TreeBuilder::XPath とのコンボがすげーイイ!ということにいまさら気づきました。 HTML::TreeBuilder::XPath で findnodes するとツリー状に連なった HTML::Element なデータ構造が返ってくるんですが、HTML::Element は API をかなりいろいろ持ってて、これをうまく使ってやるとスクレイピングを自然な感じで書けます。 例えばはてなダイアリーの任意のページから、文部分だけをスクレイピングしたいと思ったときにキーワードリンクが邪魔だったりするわけですが、とりあえず HTML::Selector::XPath で div.section をぶっこ抜いて取れた HT

    HTML::TreeBuilder + CSSセレクタがいい感じな件
  • QR Codeを作るならImager::QRCodeを使おう!

    今まで GD::Barcode::QRcode の独壇場だった QR Codeを Perl で作るためのライブラリですが、ここで一つ対抗馬として、Imager::QRCodeを作って、CPAN に上げてみました。 G::B::QRcode と比べて良いところは以下。 出来上がったものはそのままImagerのオブジェクトになっているため、出来た画像に対していろいろできます。 白黒の部分の色を Imager::Color で指定できるようになっていますので、白地に緑とか青とか赤とかの QR code ができちゃったりします。 GDなどのインストールはいりません。libqrencodeという小さなライブラリを入れるだけでさくっと動きます。 ただ、ぶっちゃけちゃうと GD::Barcode::QRcode よりも速度が若干遅いです。 以下ベンチマークになります(ベンチマークプログラムは最後に載せて

  • CPAN経由でLinuxにモジュールを組み込む

    Perlのモジュールをインストールしよう! サーバーにPerlの各種モジュールをインストールするには、CPAN を使うと超ラクチンです。 ここでは、サーバーにモジュールをインストールするためのツール、CPANの設定方法と、その使い方を解説します。 このセクションは、Linuxサーバー向けに書かれております。 CPANとは 「モジュール(機能のかたまり)」を簡単にインストールしてくれるシステムです。* 自動的に、モジュールの最新ソースファイルを取って来て、コンパイルし、インストールし、依存関係も解決してくれる優れものです。 CPANの環境を設定する CPANのスクリプトはたいていのLinuxディストリビューションに標準で入っています。 ただし、まずは設定が必要です。楽をするためには、それなりの努力がいるようです…。 shell(コマンドライン)で、以下の通り打ちま

  • ウノウラボ Unoh Labs: ウェブアプリ開発を助けるGETコマンドを使ってハックしてみよう!!

    2GBのSDカード買って意気揚々と歓迎会に突撃したらカメラごと持って帰るのを忘れて生きていくのがつらくなったjokagiです. ガジェットには名前と連絡先をお忘れなく. さてウェブアプリケーションの開発をしていると当然ですがブラウザーで画面の確認をしたりしますが,ブラウザーで確認をしているとキャッシュに悩んだり面倒くさいことが少なくありません. 普通そういう時はtelnetなどで直接HTTPプロトコルでウェブサーバーと会話するわけですが面倒くさいですよね. $ telnet www.yahoo.co.jp 80 Trying 203.216.231.160... Connected to www.yahoo.co.jp. Escape character is '^]'. GET / HTTP/1.1 Host: www.yahoo.co.jp HTTP/1.1 200 OK Date:

  • 1