[B! ExtractContent] ni66lingのブックマーク

ni66ling id:ni66ling

ExtractContentに関するni66lingのブックマーク (4)

ウェブサイトやブログ記事中の本文を抽出するgem - ぴよログ
大元はこちらで、 Webページの本文抽出 (nakatani @ cybozu labs) Ruby1.9対応され、gemになったものがこちら。 mono0x/extractcontent Bundlerを使ってリポジトリ指定でインストールできます。 gem 'extractcontent', :git => 'https://github.com/mono0x/extractcontent.git'☄ 使い方 html = open(url).read body, title = ExtractContent.analyse(html) これだけでタイトルと本文を持ってきてくれます。精度も悪くなさそう。 HTMLタグを残したい純粋に文章のみを残すという作りになっているため、抽出された本文からはHTMLタグがなくなっています。画像も無くなってしまいます。少し話がそれますが、この本文抽出
ni66ling 2016/05/31
ExtractContent

ruby

HTMLタグ

本文抽出
リンク
Ruby で Web ページの本文を抽出する方法 - present
ExtractContent を使えばいい。 Webページの本文抽出 (nakatani @ cybozu labs) ただ、上の記事の ExtractContent は Ruby1.9 以上では動かなかった。正規表現エンジンが変わったからね…。無ければ自分で修正することを前提に、GitHub で探したら、案の定 1.9 対応版を発見した。 mono0x/extractcontent 試しにこれを使ってみよう。 Gemfile に gem "extractcontent", github: "mono0x/extractcontent" を追加し、bundle でインストール。使い方は簡単で、本文を抽出したい HTML を ExtractContent.analyse メソッドに渡すだけ。タイトルと本文が返ってきた。 # coding: utf-8 require "open-uri"
ni66ling 2013/10/23
ExtractContent

ruby

本文抽出

1.9

scraping
リンク
NAL研卒業研究ノート:: Rubyモジュール ExtractContent をPythonに移植してみた
ExtractContent は、HTMLから本文を抽出するRubyモジュールです。 RubyForge: ExtractContent: Project Info Webページの本文抽出 (nakatani @ cybozu labs) Perl用の同名モジュールもありますが、今回はRubyモジュールを基にしてPythonへ移植してみました。 # -*- coding:utf-8 -*- import re import unicodedata class ExtractContent(object): # convert character to entity references CHARREF = { "nbsp" :" ", "lt" :"<", "gt" :">", "amp" :"&", "laquo":u"\xc2\xab", "raquo":u"\xc2\xbb", }
ni66ling 2013/10/23
ExtractContent

python

移植

本文抽出

scraping
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
ni66ling 2013/10/23
中谷秀洋

サイボウズ

scraping

本文抽出

ruby

ExtractContent
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx