背景 ちょっとした用事によりリコール情報について調査する機会がありました。これまでWebスクレイピングは経験がなかったのですが、便利なライブラリ({rvest})もあることだし、挑戦してみた結果を紹介します。 内容としては、国交省のサイトにある「リコール情報検索」(こちら)からリコールデータを取得し、テキストマイニングにかけた、というものです。 分析の進め方 分析の進め方は以下の通りです: サイトのページ構成を把握 構成にマッチするようにループを組んでrvest::read_htmlで順次読み込み 取得したテキストデータをMecabで形態素解析 可視化 特別なことはしておらず、サイトのページ構成に合わせて必要なデータを取得し、可視化などを行います。 1.サイトのページ構成を把握 ここは、Rではなくブラウザの機能を使いました。例えばこの辺りの記事を参考に、Google Chromeのデベロッ
![RでWebスクレイピングしたい - 統計コンサルの議事メモ](https://cdn-ak-scissors.b.st-hatena.com/image/square/e1d020483f3b558c2fff92dd371ac1ce75700d2b/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fu%2Fushi-goroshi%2F20180222%2F20180222163557.png)