[B! extract] lamichのブックマーク

lamich id:lamich

extractに関するlamichのブックマーク (7)

無料圧縮・解凍ソフト CubeICE - CubeSoft
解凍時の文字化けトラブルを防止 Mac のように Windows 標準とは異なる文字コードを採用している OS で圧縮したファイルを解凍すると、ファイル名が文字化けを起こす事があります。 CubeICE は、圧縮ファイルの文字コードを自動判別し、適切な文字コードに変換する事で文字化けを防ぎます。様々な圧縮形式にも対応しており、zip, 7-zip, lzh, rar, tar, gzip, bzip2, xz を始めとした 20 種類以上の圧縮ファイルを解凍する事ができます。ファイル名の文字化けを防止 Mac のように Windows 標準とは異なる文字コードを採用している OS で圧縮したファイルを解凍すると、ファイル名が文字化けを起こす事があります。 CubeICE は、圧縮ファイルで使用されている文字コードを自動的に判別し、適切な文字コードに変換する事で文字化けを防ぎます。
lamich 2014/01/21
extract

文字化け

mac

windows

freesoft
リンク
RubyForge: ExtractContent: Project Info
This module is to extract the text from web page(html). Intended Audience: Developers License: BSD License Natural Language: English, Japanese Programming Language: RubyRegistered: 2008-03-24 02:11 Activity Percentile: 0% View project activity statistics.
lamich 2009/03/06
1.ブロックに分けてリンク集など明らかなものを除く2.句読点やアフィリエイトリンクの割合やテキストサイズで採点3.クラスタ化して比較4Adsenseのセクションターゲットは特に重視

extract

本文抽出

ruby

algorithm

download
リンク
HTML::ExtractContent
NAME HTML::ExtractContent - An HTML content extractor with scoring heuristics SYNOPSIS use HTML::ExtractContent; use LWP::UserAgent; my $agent = LWP::UserAgent->new; my $res = $agent->get('http://www.example.com/'); my $extractor = HTML::ExtractContent->new; $extractor->extract($res->decoded_content); print $extractor->as_text; DESCRIPTION HTML::ExtractContent is a module for extracting content fr
lamich 2009/03/06
extract

本文抽出

perl

cpan

HTML-ExtractContent
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
lamich 2009/03/06
extract

ruby

adsense
リンク
subtech - otsune's SnakeOil - Google AdSense向けコメントタグを利用してblog本文抽出できるんじゃね？
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
lamich 2009/03/06
extract

idea

otsune

plagger
リンク
zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた
ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術 Yahoo!検索スタッフブログ　Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発　ブログ記事の自動分類により消費者意識の側面を捉える試み（PDF）なんでもRSS! HTML文書からのRSS Feed 自動生成　南野朋之奥村学：人工知能学会研究会資料 SIG-SW
lamich 2009/03/02
algorithm

php

extract

scrape

layout

sidebar

content

html

rss
リンク
Webstemmer のしくみ
back [English] 基本的な原理レイアウト分析ツール analyze.py 本文を抽出する extract.py パターンファイルの構造おわりに基本的な原理 Webstemmer では、以下のような仮定をもとにして Web ページを分析しています。すべての記事には共通した (たかだか数種類の) レイアウトが使われている。各ページにはメインとなる文章がひとつ含まれている。 (従って、この原理は日記や掲示板などのサイトには使えません) 記事の文章は毎日変わっても、そのレイアウトは変わらない。バナー広告やナビゲーションの HTML タグは同一レイアウトのページで不変。 Webstemmer はこの仮定をもとに、あるニュースサイトの同一レイアウトをもつページをまとめ、それらのページ中で「変化していない部分」をさがします。バナーやナビゲーション用のリンクなどはレイアウトが
lamich 2009/03/02
extract

algorithm

python

Webstemmer

scrape

layout

sidebar

content
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx