タグ

perlと本文に関するgoto553のブックマーク (7)

  • ゆーすけべー日記

    サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。 お礼に料理を作るとはいえ、サキの家には材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ

    ゆーすけべー日記
  • tokuhirom blog

    Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

  • Perlではじめるテキストマイニング - JPerl Advent Calendar 2009

    Perlではじめるテキストマイニング - JPerl Advent Calendar 2009 Perl に関するちょっとした Tips をのっけてみるよ。ちゃんと続くかな? ■前置き みなさんこんにちは。ダウンロードたけし(寅年)です。来年は年男なので今からお正月が待ち遠しい35歳2児の父です。 ここ数年、web広告業界ではコンテキスト解析とかユーザの行動分析とか、いわゆるデータマイニング/テキストマイニング系の話題が花盛りです。 自分もそんな業界に属しているんですが、ふと気がつくと日語のテキストマイニング系モジュールを量産してしまっているので、ここらでいくつか紹介してみたいと思います。 今回はインターネットからブログなどのコンテンツを取得して、それを意味解析してクラスタリングする、といったようなことを題材にモジュールの紹介をしてみます。 ■HTML::Featureで文抽出 まずは

  • ExtractUniqueBlock - コンテンツ抽出(本文抽出) Perl モジュール

    コンテンツ抽出(文抽出) Perl モジュール ExtractUniqueBlock の配布ページです。追加した方がよい機能、修正した方がよい機能などがありましたら、お気軽にご連絡ください。最終的には CPAN での配布を予定しております。 ダウンロード 最新版(0.01) ExtractUniqueBlock_beta_0.01.zip ExtractUniqueBlock_beta_0.01.zip に含まれるファイルは以下の通りです。 ExtractUniqueBlock.pm コンテンツ抽出(文抽出) Perl モジュール ExtractUniqueBlock 体 asahi_rss.pl asahi.com の RSS を取得してコンテンツ抽出(文抽出)を行うサンプル local_directory.pl ローカルの HTML 群からコンテンツ抽出(文抽出)を行うサンプ

  • HTML::Feature 3.00 リリースしました - ダウンロードたけし(寅年)の日記

    前回のエントリで案内した通り、perl文抽出モジュール「HTML::Feature」を全面的に作り直し、リリースしました。すでにCPANにも反映されています。今回の改修で、抽出精度が向上し、且つ全体的にも高速化がなされました。ヤタ! HTML::Feature - Extract Feature Sentences From HTML Documents http://search.cpan.org/~miki/HTML-Feature/ 以下、簡単に新機能をご紹介します。 エンジンモジュールを直列に並べる 従来からコアとなるエンジンモジュールについては、任意のものに置き換えることができるようになっていました。デザパタでいうと「Strategyパターン」です。 version 3.00 からは、任意の個数のエンジンを好きな順番で直列に並べられるようになりました。 例えば全く異なる抽出方

    HTML::Feature 3.00 リリースしました - ダウンロードたけし(寅年)の日記
  • 本文抽出モジュールを作り直す - download_takeshi’s diary

    2年ほど前にHTML::FeatureというPerl文抽出モジュールを書きました。 こいつはブログやニュース記事から「文らしき箇所」を適当に推測して抽出してくれるモジュールでして、リリースした当時はライバルもいなかったので、ブログなどでは結構反応がよかったです。外国の方も何人か使ってくれたりして、それなりに充実感のあるモジュールでした。 しかし、昨年HTML::ExtractContentが出現してからは、すっかりその地位を奪われ&忘れられた感がありました。作者としては「ま、いっか」的なノリだったのですが、最近になって急に「文抽出界での復権を目指し全面リメイクを敢行するよ!」と思うに至りました。 改善方針 方針ってほどの方針ではありませんが、 - サイトごとに定義できる部分はすなおに定義する - アルゴリズムに頼りすぎない - google adsenceの人気にあやかる - 全体

    本文抽出モジュールを作り直す - download_takeshi’s diary
  • HTMLから本文を抜き出せるモジュールHTML::ExtractContent - perl-mongers.org

    This domain may be for sale!

  • 1