タグ

URLに関するwnoguchi0727のブックマーク (2)

  • URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」

    import.ioとは import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。 無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。 URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。 以下では、その簡単な使い方や、利用例などを紹介したいと思います。 定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。 基的な使い方 import.ioの最大の特徴は、使い方の簡単さです。 以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。

    URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」
  • Amazon.co.jpの正規化URLの構造を調べてみた - 風柳メモ

    承前 【amzRememberOptions】Amazon.co.jpで検索のカテゴリー&並び替えオプションを保存するユーザースクリプト試作 - 風柳メモ Amazon.co.jpで著者検索 - Hatena::Let これらを作る前後にて、Amazon.co.jp の正規化URL(link[rel="canonical"] の href 値)等について調べてみたことの覚書。 きちんと検証しているわけではないので注意。誤り等あった場合はご指摘願う。 個別商品ページ 正規化URLの構造 http://www.amazon.co.jp/[商品名]/dp/[ASIN] [商品名] はエンコードされている。また、"[商品名]/"の部分は省略可。 例 通常の個別商品ページURL例 http://www.amazon.co.jp/お前は俺を殺す気か-1-シギサワ-カヤ/dp/4592710533/re

    Amazon.co.jpの正規化URLの構造を調べてみた - 風柳メモ
  • 1