前回のエントリで案内した通り、perlの本文抽出モジュール「HTML::Feature」を全面的に作り直し、リリースしました。すでにCPANにも反映されています。今回の改修で、抽出精度が向上し、且つ全体的にも高速化がなされました。ヤタ!HTML::Feature - Extract Fea... 続きを読む
2年ほど前にHTML::FeatureというPerlの本文抽出モジュールを書きました。こいつはブログやニュース記事から「本文らしき箇所」を適当に推測して抽出してくれるモジュールでして、リリースした当時はライバルもいなかったので、ブログなどでは結構反応がよかっ... 続きを読む
A PHP class to generate PDF files from HTML with Unicode/UTF-8 and CJK supportA PHP class to generate PDF files from HTML with Unicode/UTF-8 and CJK support mPDF is a PHP class which generates PDF files from UTF-8 encoded HTML. It is based on... 続きを読む
こういうの無いかなぁと思ってました。 例えば任意のサイトのサマリを作りたい時、HTMLをテキスト化して一定文字数で削る訳ですが、どこからどこまでが本文かはそのサイト製作者の意図する所であってなかなか難しい処理かと思います。 今回ご紹介するHTML::Extr... 続きを読む
HTML を指定の文字数で分割するための HTMLS::Split なるモジュールを CPAN に up しましたので、さっくり使い方なんかをつらつら。 なにするモジュール? 最初に書いたとおり、HTML を指定の文字数で分割するためのモジュールです。 携帯端末などで HTMLタグを... 続きを読む
以前からCPANで公開していたモジュールがあるんですが、日本語での解説ドキュメントがなかったのと、最近大幅にブラッシュアップしたので、せっかくなので紹介記事を書きます。HTML::Feature - Extract Feature Sentences From HTML Documents「えいちてぃえむ... 続きを読む
■ HTML::ContentExtractor + Lingua::JA::Summarize::Extract 14:00 #!/usr/local/bin/perl use strict; use warnings; use Encode; use HTML::ContentExtractor; use LWP::UserAgent; use Lingua::JA::Summarize::Extract; my $url = shift or die "usage: $0... 続きを読む
Perl, CPAN以前、id:naoyaさんのd:id:naoya:20061006:1160134639にて「HTML::TreeBuilder + CSSセレクタがいい感じな件」ってエントリがあったんですが、まさにそのコンボとなるモジュールがリリースされてました。HTML::TreeBuilder::Select例えばtext-vimcolo... 続きを読む
HTML要素を抜き出す正規表現を自動生成するプログラム html2regexp を作ったので公開します。html2regexp - Regular Expression Generator for HTML Element使い方は簡単で、HTMLファイル中の抜き出したいHTML要素の先頭タグの末尾にh2rと書き加えるだけです。... 続きを読む