タグ

ブックマーク / ushi-goroshi.hatenablog.com (1)

  • RでWebスクレイピングしたい - 統計コンサルの議事メモ

    背景 ちょっとした用事によりリコール情報について調査する機会がありました。これまでWebスクレイピングは経験がなかったのですが、便利なライブラリ({rvest})もあることだし、挑戦してみた結果を紹介します。 内容としては、国交省のサイトにある「リコール情報検索」(こちら)からリコールデータを取得し、テキストマイニングにかけた、というものです。 分析の進め方 分析の進め方は以下の通りです: サイトのページ構成を把握 構成にマッチするようにループを組んでrvest::read_htmlで順次読み込み 取得したテキストデータをMecabで形態素解析 可視化 特別なことはしておらず、サイトのページ構成に合わせて必要なデータを取得し、可視化などを行います。 1.サイトのページ構成を把握 ここは、Rではなくブラウザの機能を使いました。例えばこの辺りの記事を参考に、Google Chromeのデベロッ

    RでWebスクレイピングしたい - 統計コンサルの議事メモ
  • 1