タグ

winhttpに関するnabinnoのブックマーク (3)

  • WinHTTP ライブラリで Web スクレイピング(3)〜解析編〜

    実際にはもっと細かい情報まで必要とする状況もあるでしょうが、今回はあくまでデモケースなので、このていどにしておきます。 どのみち、情報の取得は単調な繰り返しで、対象要素が変わってもやり方はそれほど変わりません。 トピックを読み終えるころには、どんな要素でも自在に取り出せるようになっていることでしょう。 正規表現 正規表現とは、一定の規則に従ったパターン文字列を認識するための技術です。 パターンの定義にはメタ文字と呼ばれる特殊な意味を持つ文字を使用します。 概念的には VBA の Like 演算子を思い浮かべると理解しやすいでしょう。 Like 演算子にもいくつかメタ文字が存在します。たとえばメタ文字 "*" は、0 個以上の任意の文字を意味します。 正規表現のメタ文字は、Like 演算子のそれとは少し意味が異なりますが、大雑把に言えば Like 演算子を強力に拡張したものが正規表現(ある

  • WinHTTP ライブラリで Web スクレイピング(2)〜 POST 編〜

    概要 前回までのあらすじ JRA のサイトから出馬表をスクレイピングする、という目標を掲げたものの、肝心の出馬表ページを GET しようとするとパラメータエラーになってしまうことが判明。 URL を確認したところ、別々のページに見えたものがまったく同一の URL になっていましたとさ。 「出馬表 開催選択」画面 「出馬表 レース選択」画面 「出走馬一覧」画面 さて、こういう場合はどうしましょう? 基 ここで HTTP プロトコルについて、基をおさらいしておきます。 HTTP プロトコルはいくつかのメソッドをサポートしています。 そのうち最もポピュラーなのは GET と POST でしょう。 GET はサーバにレスポンスを要求するメソッドです。静的な Web ページの取得で用いられるのはもちろんですが、CGI による動的なページをリクエストする場合は、一般的に URI に QuerySt

  • WinHTTP ライブラリで Web スクレイピング(1)~ GET 編~

    概要 Web から情報を取得したいというニーズは、いまや当たり前のものになりました。 対象サイトが Web API を提供している場合、話は簡単です。しかし Web API を提供しているサイトばかりではありません。というより、数で言うなら Web API を提供していないサイトの方が圧倒的多数です。そんなサイトの中にほしい情報があった場合は、否応なく Web ページを直接取得して情報を解析・抽出する必要があります。 原始的と言うか地道と言うか、とにかくこのベタなやり方を称して「Web スクレイピング」(文脈によっては単に「スクレイピング」)と呼びます(海外では Web harvesting と呼ぶ場合も多いですが、なぜか日ではこっちはほとんど用いられないようです)。 Access VBA で Web スクレイピングを行う方法については、サイトにすでに関連トピックが二つ存在します。 W

  • 1