タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

rubyとnokogiriに関するshokaiのブックマーク (2)

  • Ruby Scraping - Nokogiriのタグ操作機能

    XML::Nodeクラス、およびそのサブクラスであるXML::Documentクラスについて。 HTML::Document < XML::Document < XML::Node という継承関係になっています(HTML::Nodeというクラスはありません)。 また XML::Element(特定のドキュメントに属していない要素単体?)もXML::Nodeのサブクラスです Nodeクラスのメソッド この要素の情報を知りたい 属性 種類 文字列化 このノードを操作したい 周りのノードの情報を知りたい 検索 要素の追加・変更 その他 Node.new(name) Node.new_from_str(string) この要素の情報を知りたい css_path() content Returns the content for this Node content=(string, encode

  • Rubyでシンプルなページャ

    あるページにアクセスして,ある処理をして,そしたら次のページに遷移して,また同じ処理をして… ってのはよくある処理です.ボクも過去に何度かそういった処理をするスクリプトを書いた覚えがあります.特に,Nokogiri 登場以後は,がしがしと XPath を扱えるようになったのでスクレイピングがとても楽しくて,その手のスクリプトを書く機会が増えました. そこで,シンプルなページャを作ってみました.対象となる Web ページの URL と,そのページ中に「次ページへのリンク」の XPath を与えます.each に与えるブロックが,各ページへの処理になります. サンプルでは,http://june29.jp/ にアクセスして,各エントリのタイトルとリンクを表示させています.2008年11月より古いエントリが現れたら,ページングを止めています. コンソール出力はこんな感じです. ---------

    Rubyでシンプルなページャ
  • 1