[B! HTML][scraping] fujimockerのブックマーク

fujimocker id:fujimocker

HTMLとscrapingに関するfujimockerのブックマーク (3)

「第2回Webスクレイピング勉強会@東京」に参加＆発表してきました - プログラマでありたい
前回に引き続き、第2回Webスクレイピング勉強会@東京に参加し、発表もしてきました。今回は、ブログやサイトから本文部分をどうやって抽出するのかというテーマです。ブログの本文抽出とは、ヘッダーやフッダー、サイドメニューなど情報として不要な部分を排除して、本文部分だけを抜き出す手法です。HTMLのタグを解析するルールベースと、自然言語処理を利用して本文らしさを抽出するヒューリスティックな方法の2つについて、簡単に説明しています。発表資料サイト／ブログから本文抽出する方法 from Takuro Sasaki 解説と質疑応答そもそもブログやサイトの本文を抽出する目的としては、２つくらいあるのではと思います。１つは、その記事そのものを読みたい場合。もう１つは、記事を統計解析などの元データとして利用したい場合があると思います。前者の場合は記事全文がないと意味がないし、後者は必ずしも記事全文は必
fujimocker 2014/08/24
HTML

web

ruby

scraping
リンク
プログラミング・レスで5分でサックリWebスクレイピング「kimonolabs」 - プログラマでありたい
「Rubyによるクローラー開発技法」で付録か何かで書こうか悩んだ末に書かなかったのが、kimonolabsの話です。kimonolabsは、クローラー／スクレイピングをオンラインで実行できるWebサービス（SaaS）です。クローラー本を書いておいて何ですが、９割の人は自分でクローラーを作らずに、この手のサービスを利用すれば事足りると思います。（書かなかった理由は、Ruby縛りサービスの継続性とスケジュールの問題です。主に最後） kimonolabsとは？ kimonolabsは、先述のとおりWebスクレイピングをしてくれるSaaSです。会員登録してChromeの拡張をいれれば、すぐに使えるようになります。一般的に、Webスクレイピングする場合は、次のような手順が必要です。対象ページのダウンロードダウンロードしたページから、特定の箇所を抜き出す抜き出したデータの保存対象ページのダウン
fujimocker 2014/08/16
programming

ruby

SaaS

web

api

crawler

scraping

html
リンク
Ruby製の構文解析ツール、Nokogiriの使い方 with Xpath - プログラマでありたい
RubyでHTMLやXMLをパースする構文解析ツールの定番は、Nokogiriです。スクレイピングする際の必需品で、なくてはならないモジュールの１つです。ただ色々なことが出来る反面、どこから取りかかれば良いのか解り難い部分もあります。自習を兼ねて、Nokogiri概要と主要な機能を紹介してみます。 Nokogiriとは何か？ ReademeによるとNokogiriとは、「HTMLとXMLとSAXとXSLTとReaderのパーサー」で、特徴としては、XPathとCSS3セレクター経由で探索する機能を持つことのようです。他にもHTMLやXMLのビルダーの機能を持っていますが、HTMLとXMLのパーサー（構文解析器）と覚えておけばよいでしょう。 Nokogiriのクラス構造 Nokogiriは、なかなか巨大なライブラリです。10以上のモジュールと70以上のクラスで構成されていて、yardでダイア
fujimocker 2014/04/20
Nokogiri

rudy

scraping

Ruby

document

HTML

xml
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx