タグ

extractに関するlamichのブックマーク (7)

  • 無料 圧縮・解凍ソフト CubeICE - CubeSoft

    解凍時の文字化けトラブルを防止 Mac のように Windows 標準とは異なる文字コードを採用している OS で圧縮したファイルを解凍すると、ファイル名が文字化けを起こす事があります。 CubeICE は、圧縮ファイルの文字コードを自動判別し、適切な文字コードに変換する事で文字化けを防ぎます。 様々な圧縮形式にも対応しており、zip, 7-zip, lzh, rar, tar, gzip, bzip2, xz を始めとした 20 種類以上の圧縮ファイルを解凍する事ができます。 ファイル名の文字化けを防止 Mac のように Windows 標準とは異なる文字コードを採用している OS で圧縮したファイルを解凍すると、 ファイル名が文字化けを起こす事があります。 CubeICE は、圧縮ファイルで使用されている文字コードを自動的に判別し、 適切な文字コードに変換する事で文字化けを防ぎます。

    無料 圧縮・解凍ソフト CubeICE - CubeSoft
  • RubyForge: ExtractContent: Project Info

    This module is to extract the text from web page(html). Intended Audience: Developers License: BSD License Natural Language: English, Japanese Programming Language: RubyRegistered: 2008-03-24 02:11 Activity Percentile: 0% View project activity statistics.

    lamich
    lamich 2009/03/06
    1.ブロックに分けてリンク集など明らかなものを除く2.句読点やアフィリエイトリンクの割合やテキストサイズで採点3.クラスタ化して比較4Adsenseのセクションターゲットは特に重視
  • HTML::ExtractContent

    NAME HTML::ExtractContent - An HTML content extractor with scoring heuristics SYNOPSIS use HTML::ExtractContent; use LWP::UserAgent; my $agent = LWP::UserAgent->new; my $res = $agent->get('http://www.example.com/'); my $extractor = HTML::ExtractContent->new; $extractor->extract($res->decoded_content); print $extractor->as_text; DESCRIPTION HTML::ExtractContent is a module for extracting content fr

    HTML::ExtractContent
  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • subtech - otsune's SnakeOil - Google AdSense向けコメントタグを利用してblog本文抽出できるんじゃね?

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    subtech - otsune's SnakeOil - Google AdSense向けコメントタグを利用してblog本文抽出できるんじゃね?
  • zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

    ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の文を取得するケースが多いようです。 「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術Yahoo!検索 スタッフブログ Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。 ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発 ブログ記事の自動分類により消費者意識の側面を捉える試み(PDF)なんでもRSS! HTML文書からのRSS Feed 自動生成 南野朋之 奥村学:人工知能学会研究会資料 SIG-SW

  • Webstemmer のしくみ

    back [English] 基的な原理 レイアウト分析ツール analyze.py 文を抽出する extract.py パターンファイルの構造 おわりに 基的な原理 Webstemmer では、以下のような仮定をもとにして Web ページを分析しています。 すべての記事には共通した (たかだか数種類の) レイアウトが使われている。 各ページにはメインとなる文章がひとつ含まれている。 (従って、この原理は日記や掲示板などのサイトには使えません) 記事の文章は毎日変わっても、そのレイアウトは変わらない。 バナー広告やナビゲーションの HTML タグは同一レイアウトのページで不変。 Webstemmer はこの仮定をもとに、 あるニュースサイトの同一レイアウトをもつページをまとめ、 それらのページ中で「変化していない部分」をさがします。 バナーやナビゲーション用のリンクなどはレイアウトが

  • 1