タグ

2010年12月2日のブックマーク (4件)

  • IPv6アドレスについて知っておくべき10のこと

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 12月10日更新:記事の項目4と項目6について、IPv6分野の最新状況を追記した。詳しくは各項目を参照されたい。 ここ数年、IPv6は徐々に主流の技術になりつつある。しかしIPv6はIPv4と大きく違っているため、多くのITプロフェッショナルは、IPv6への移行と言ってもどこから手を付けていいかわからないのが現状だ。この記事では、IPv6のアドレッシングの仕組みを理解するのに役立つ、10のポイントを紹介する。 1.IPv6アドレスは128ビットの16進数 われわれが見慣れているIPv4は、4つの10進数からなっており、これが合わさって32ビットのアドレスを構成する。しかしIPv6アドレスは、IPv4のアドレスとは似ても似つかない。IP

    IPv6アドレスについて知っておくべき10のこと
  • WWW::Mechanize + XPath で快適 Web スクレイピング! - TETRIS 3

    mixi から友人の日記の文を取得して出力します。 準備。 $KCODE = "e" require "kconv" require "rubygems" require "mechanize" include WWW agent = Mechanize.new とりあえず mixi をゲット。 #Login page = agent.get("http://www.mixi.jp/") form = page.forms.first form["email"] = "mail@address" form["password"] = "password" form.submit #日記一覧ページ page = agent.get("new_friend_diary.pl") Firebug で XPath を取得します。らくちんだ。 Firebug で簡単に XPath 作れると言っても

    WWW::Mechanize + XPath で快適 Web スクレイピング! - TETRIS 3
  • Mechanizeで無茶をする

    mechanize-0.9.3 Documentation 自分にとって Mechanize による自動化はたいがい無理を通す行為である。分かりやすく言えば API なんかない、あるいはあっても足りないみたいな状態で、それでもどうにか自動化したいから Mechanize を使う。 Mechanize が持っている標準的な機能だけで済んでいる場合はまだかなりマシで、実際のところ無理というか「無茶」なレベルに突入してしまうことが、なぜかそれなりにあったりする。具体的には HTML が壊れているのでパースに失敗して、あるはずの要素がなくなっていたりする場合などである。 今回はそんな無茶の一部をご紹介。 パーサを Hpricot に変えるずばり基でしょう。 Mechanize は 0.9 以降デフォルトパーサを Hpricot から Nokogiri に切り替えているが、そもそも Nokogir

  • RubyのMechanizeで文字化けするページがある件について | インサイドフラッギング

    Mechanizeがときどき日語のページで文字化けするので、原因と解決方法を調べてみた。確認したバージョンは次の通り。 Ruby 1.9.1-p378と1.8.6-p111(Ubuntuのパッケージ) Mechanize 1.0.0 Nokogiri 1.4.2 libxml2 2.6.31(Ubuntuのパッケージ) エンコーディングの扱い Mechanizeの内部エンコーディングはUTF-8に固定されていて、ドキュメントのエンコーディングが何であれUTF-8に変換される。これはMechanizeがHTMLパーサに使っているNokogiriの仕様であり、Nokogiriが依存しているlibxml2の仕様でもある。そういう事情でMechanizeから取り出した文字列はすべてUTF-8になっている。Ruby 1.9だとString#encodingはEncoding::UTF_8にセットさ