shuken12のブックマーク - はてなブックマーク

HTML::Feature 3.00 リリースしました - ダウンロードたけし（寅年）の日記

前回のエントリで案内した通り、perlの本文抽出モジュール「HTML::Feature」を全面的に作り直し、リリースしました。すでにCPANにも反映されています。今回の改修で、抽出精度が向上し、且つ全体的にも高速化がなされました。ヤタ！ HTML::Feature - Extract Feature Sentences From HTML Documents http://search.cpan.org/~miki/HTML-Feature/ 以下、簡単に新機能をご紹介します。エンジンモジュールを直列に並べる従来からコアとなるエンジンモジュールについては、任意のものに置き換えることができるようになっていました。デザパタでいうと「Strategyパターン」です。 version 3.00 からは、任意の個数のエンジンを好きな順番で直列に並べられるようになりました。例えば全く異なる抽出方

shuken12 2009/08/02

本文抽出モジュールリファイン

リンク

本文抽出モジュールを作り直す - download_takeshi’s diary

２年ほど前にHTML::FeatureというPerlの本文抽出モジュールを書きました。こいつはブログやニュース記事から「本文らしき箇所」を適当に推測して抽出してくれるモジュールでして、リリースした当時はライバルもいなかったので、ブログなどでは結構反応がよかったです。外国の方も何人か使ってくれたりして、それなりに充実感のあるモジュールでした。しかし、昨年HTML::ExtractContentが出現してからは、すっかりその地位を奪われ＆忘れられた感がありました。作者としては「ま、いっか」的なノリだったのですが、最近になって急に「本文抽出界での復権を目指し全面リメイクを敢行するよ！」と思うに至りました。改善方針方針ってほどの方針ではありませんが、 - サイトごとに定義できる部分はすなおに定義する - アルゴリズムに頼りすぎない - google adsenceの人気にあやかる - 全体

shuken12 2009/07/25

ブログやニュース記事などのHTML文書から本文といわれる部分を抽出する

リンク

戦国史Wikiトップページ

戦略シミュレーションゲーム「戦国史」のWikiサイトです。登録ユーザであれば誰でも編集できます。ご登録いただき、共同編集にご協力いただける方を募集しています。 → ユーザ登録及び編集手順なお、トップページ及びいくつかのページは管理人のみ編集可能となっております。変更要望があれば、管理人までご連絡ください。管理人蛛賢：https://twitter.com/shuken12 ◆８月攻勢◆ シナリオ情報は閉鎖前の状態までの復旧しました。随時更新して参ります。

shuken12 2009/07/23

応仁期を扱った秀逸シナリオです

リンク

戦国史Wikiトップページ

戦略シミュレーションゲーム「戦国史」のWikiサイトです。登録ユーザであれば誰でも編集できます。ご登録いただき、共同編集にご協力いただける方を募集しています。 → ユーザ登録及び編集手順なお、トップページ及びいくつかのページは管理人のみ編集可能となっております。変更要望があれば、管理人までご連絡ください。管理人蛛賢：https://twitter.com/shuken12 ◆８月攻勢◆ シナリオ情報は閉鎖前の状態までの復旧しました。随時更新して参ります。

shuken12 2009/07/21

大変秀逸です。条件イベントを組み込みたいと思った時に必ず目を通すと良いでしょう。

リンク

はてなブックマーク

タグ

shuken12のブックマーク (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス