shuken12のブックマーク (4)

  • HTML::Feature 3.00 リリースしました - ダウンロードたけし(寅年)の日記

    前回のエントリで案内した通り、perl文抽出モジュール「HTML::Feature」を全面的に作り直し、リリースしました。すでにCPANにも反映されています。今回の改修で、抽出精度が向上し、且つ全体的にも高速化がなされました。ヤタ! HTML::Feature - Extract Feature Sentences From HTML Documents http://search.cpan.org/~miki/HTML-Feature/ 以下、簡単に新機能をご紹介します。 エンジンモジュールを直列に並べる 従来からコアとなるエンジンモジュールについては、任意のものに置き換えることができるようになっていました。デザパタでいうと「Strategyパターン」です。 version 3.00 からは、任意の個数のエンジンを好きな順番で直列に並べられるようになりました。 例えば全く異なる抽出方

    HTML::Feature 3.00 リリースしました - ダウンロードたけし(寅年)の日記
    shuken12
    shuken12 2009/08/02
    本文抽出モジュールリファイン
  • 本文抽出モジュールを作り直す - download_takeshi’s diary

    2年ほど前にHTML::FeatureというPerl文抽出モジュールを書きました。 こいつはブログやニュース記事から「文らしき箇所」を適当に推測して抽出してくれるモジュールでして、リリースした当時はライバルもいなかったので、ブログなどでは結構反応がよかったです。外国の方も何人か使ってくれたりして、それなりに充実感のあるモジュールでした。 しかし、昨年HTML::ExtractContentが出現してからは、すっかりその地位を奪われ&忘れられた感がありました。作者としては「ま、いっか」的なノリだったのですが、最近になって急に「文抽出界での復権を目指し全面リメイクを敢行するよ!」と思うに至りました。 改善方針 方針ってほどの方針ではありませんが、 - サイトごとに定義できる部分はすなおに定義する - アルゴリズムに頼りすぎない - google adsenceの人気にあやかる - 全体

    本文抽出モジュールを作り直す - download_takeshi’s diary
    shuken12
    shuken12 2009/07/25
    ブログやニュース記事などのHTML文書から本文といわれる部分を抽出する
  • 戦国史Wikiトップページ

    戦略シミュレーションゲーム「戦国史」のWikiサイトです。 登録ユーザであれば誰でも編集できます。 ご登録いただき、共同編集にご協力いただける方を募集しています。 → ユーザ登録及び編集手順 なお、トップページ及びいくつかのページは管理人のみ編集可能となっております。変更要望があれば、管理人までご連絡ください。 管理人蛛賢:https://twitter.com/shuken12 ◆8月攻勢◆ シナリオ情報は閉鎖前の状態までの復旧しました。随時更新して参ります。

    戦国史Wikiトップページ
    shuken12
    shuken12 2009/07/23
    応仁期を扱った秀逸シナリオです
  • 戦国史Wikiトップページ

    戦略シミュレーションゲーム「戦国史」のWikiサイトです。 登録ユーザであれば誰でも編集できます。 ご登録いただき、共同編集にご協力いただける方を募集しています。 → ユーザ登録及び編集手順 なお、トップページ及びいくつかのページは管理人のみ編集可能となっております。変更要望があれば、管理人までご連絡ください。 管理人蛛賢:https://twitter.com/shuken12 ◆8月攻勢◆ シナリオ情報は閉鎖前の状態までの復旧しました。随時更新して参ります。

    戦国史Wikiトップページ
    shuken12
    shuken12 2009/07/21
    大変秀逸です。条件イベントを組み込みたいと思った時に必ず目を通すと良いでしょう。
  • 1