Rubyで2ちゃんねるのスレを読みたかったので,調べてみると,2ちゃんねるBOTの作り方を詳細に解説してくれている人がいた. 2ちゃんねるBOTの作り方 準備編 - GIOの日記 2ちゃんねるBOTの作り方 設計編 - GIOの日記 2ちゃんねるBOTの作り方 実装編1 - GIOの日記 2ちゃんねるBOTの作り方 実装編2 - GIOの日記 記事内のソースコードのリンクは切れていたけど,GitHubで公開されてた. gioext/bot2ch · GitHub スレの内容をパースする処理とかがなかったので,forkして欲しい機能を勝手に実装した. hitode909/bot2ch · GitHub 試しにこれを使って,ラーメン板の,タイトルにこってりを含むスレの最新のレスを表示してみる. require 'bot2ch' menu = Bot2ch::Menu.new board = m
スクレイピングのチュートリアルを書いてみた。 参考:http://nokogiri.rubyforge.org/nokogiri/Nokogiri.html まだまだたくさんのクラスやメソッドがあるが(読んでない)、HTMLのスクレイピングに限定すれば多分これくらいで十分。 2014-02-16追記 なんかたくさんブックマークされていることに気づいたので、サンプルコードのRuby1.9/2対応のアップデート。 Mechanize周りも修正。WWW::Mechanize → Mechanize 等 (0) 前提知識 Ruby、HTML、DOM、CSSセレクタまたはXPath (1) クラス構造の理解 Nokogiri::HTML::Document < Nokogiri::XML::Document < Nokogiri::XML::Node < Object Nokogiri::XML::
<textarea class="ruby" cols="60" rows="5" name="code"> require File.expand_path(File.dirname(__FILE__) + "/../config/environment") require "rubygems" require "open-uri" require "logger" require "scrapi" require "jcode" require "uri" class ScrapeSite SITE_URL = "http://**********" def scrape ################################################################### # サイトURL生成 #############################
Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く