[B! perl][本文] goto553のブックマーク

ゆーすけべー日記

サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一本吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。お礼に料理を作るとはいえ、サキの家には食材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい食材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ

goto553 2010/06/25

リンク

tokuhirom blog

Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

goto553 2009/12/28

リンク

Perlではじめるテキストマイニング - JPerl Advent Calendar 2009

Perlではじめるテキストマイニング - JPerl Advent Calendar 2009 Perl に関するちょっとした Tips をのっけてみるよ。ちゃんと続くかな？ ■前置きみなさんこんにちは。ダウンロードたけし（寅年）です。来年は年男なので今からお正月が待ち遠しい35歳2児の父です。ここ数年、web広告業界ではコンテキスト解析とかユーザの行動分析とか、いわゆるデータマイニング／テキストマイニング系の話題が花盛りです。自分もそんな業界に属しているんですが、ふと気がつくと日本語のテキストマイニング系モジュールを量産してしまっているので、ここらでいくつか紹介してみたいと思います。今回はインターネットからブログなどのコンテンツを取得して、それを意味解析してクラスタリングする、といったようなことを題材にモジュールの紹介をしてみます。 ■HTML::Featureで本文抽出まずは

goto553 2009/12/11

リンク

ExtractUniqueBlock - コンテンツ抽出（本文抽出） Perl モジュール

コンテンツ抽出（本文抽出） Perl モジュール ExtractUniqueBlock の配布ページです。追加した方がよい機能、修正した方がよい機能などがありましたら、お気軽にご連絡ください。最終的には CPAN での配布を予定しております。ダウンロード最新版（0.01） ExtractUniqueBlock_beta_0.01.zip ExtractUniqueBlock_beta_0.01.zip に含まれるファイルは以下の通りです。 ExtractUniqueBlock.pm コンテンツ抽出（本文抽出） Perl モジュール ExtractUniqueBlock 本体 asahi_rss.pl asahi.com の RSS を取得してコンテンツ抽出（本文抽出）を行うサンプル local_directory.pl ローカルの HTML 群からコンテンツ抽出（本文抽出）を行うサンプ

goto553 2009/08/03

perl
本文

リンク

HTML::Feature 3.00 リリースしました - ダウンロードたけし（寅年）の日記

前回のエントリで案内した通り、perlの本文抽出モジュール「HTML::Feature」を全面的に作り直し、リリースしました。すでにCPANにも反映されています。今回の改修で、抽出精度が向上し、且つ全体的にも高速化がなされました。ヤタ！ HTML::Feature - Extract Feature Sentences From HTML Documents http://search.cpan.org/~miki/HTML-Feature/ 以下、簡単に新機能をご紹介します。エンジンモジュールを直列に並べる従来からコアとなるエンジンモジュールについては、任意のものに置き換えることができるようになっていました。デザパタでいうと「Strategyパターン」です。 version 3.00 からは、任意の個数のエンジンを好きな順番で直列に並べられるようになりました。例えば全く異なる抽出方

goto553 2009/07/29

リンク

本文抽出モジュールを作り直す - download_takeshi’s diary

２年ほど前にHTML::FeatureというPerlの本文抽出モジュールを書きました。こいつはブログやニュース記事から「本文らしき箇所」を適当に推測して抽出してくれるモジュールでして、リリースした当時はライバルもいなかったので、ブログなどでは結構反応がよかったです。外国の方も何人か使ってくれたりして、それなりに充実感のあるモジュールでした。しかし、昨年HTML::ExtractContentが出現してからは、すっかりその地位を奪われ＆忘れられた感がありました。作者としては「ま、いっか」的なノリだったのですが、最近になって急に「本文抽出界での復権を目指し全面リメイクを敢行するよ！」と思うに至りました。改善方針方針ってほどの方針ではありませんが、 - サイトごとに定義できる部分はすなおに定義する - アルゴリズムに頼りすぎない - google adsenceの人気にあやかる - 全体