robots.txt とかも自分で一度は目を通しておこうね。 さて、以前の日記で気象庁の各日の震源データが消えていると思ったら見つかりました~ってのを書きました。 niszet.hatenablog.com 今回はそのページからデータを取ってくる作業をします。手作業でも良いかなと思ったらこれは日毎にページが分かれているわけですね~。流石にこれを手でやるのはちょっとシンドイので、久々にスクレイピングでやっつけます。 丁度良いことに、昨年末のJapan.R 2020にてwatagusaさんのLT、「"polite"で守るWebスクレイピングのエチケット」でpoliteパッケージの存在を知ったので、これを参考にしてやってみました。 Japan.Rのページはこちら japanr.connpass.com また、LTの内容ついてはwatagusaさんのブログにまとまってます。 watagusa.ha
1 Rによるウェブスクレイピング ウェブスクレイピングは,ウェブ上に存在する情報を収集 (scrape) する方法,特に後述のAPIを用いずに情報を収集する方法を指す. ここではまず,(1) 「たくさんのファイルをダウンロードして,読み込む」作業をRによって自動化する. とはいえ,研究で用いたいデータが常に簡単にダウンロードできる形 (csvやzip) で提供されている訳ではない.たとえば,日々変動する株価や為替レートのようなデータをリアルタイムで取得したい場合もある.しかし,多くの場合,これらのデータは「文字の情報」としてはウェブ上に存在するものの,ダウンロードしやすい.csvや.zipのような形では提供されていない.そこで,(2) 為替レートと例に, ウェブ上に存在する文字列を収集する作業をRによって自動化するコードも例示する. いずれの作業にしても,R (や他の言語によるコード) が
背景 ちょっとした用事によりリコール情報について調査する機会がありました。これまでWebスクレイピングは経験がなかったのですが、便利なライブラリ({rvest})もあることだし、挑戦してみた結果を紹介します。 内容としては、国交省のサイトにある「リコール情報検索」(こちら)からリコールデータを取得し、テキストマイニングにかけた、というものです。 分析の進め方 分析の進め方は以下の通りです: サイトのページ構成を把握 構成にマッチするようにループを組んでrvest::read_htmlで順次読み込み 取得したテキストデータをMecabで形態素解析 可視化 特別なことはしておらず、サイトのページ構成に合わせて必要なデータを取得し、可視化などを行います。 1.サイトのページ構成を把握 ここは、Rではなくブラウザの機能を使いました。例えばこの辺りの記事を参考に、Google Chromeのデベロッ
<!DOCTYPE html> <html> <head> <meta charset="UTF-8" /> <meta http-equiv="content-language" content="ja" /> <style type="text/css"> <!-- p {color:blue; line-height:1.5;} p.green { color: green; } p#red { color: red; } .table3 { border-collapse: collapse; } .myTable th { background-color: #00cc00; } div#divRoot { color: yellow; } div.inDiv { color: blue; } span.inSpan { color: pink; } --> </style> <
お久しぶりです。 最近上司と「機械学習とかその辺の技術が発展したら、真っ先に自動化されて仕事なくなるのはハンパなエンジニアと中間管理職だよね〜」という話をして危機感を募らせている @takeshi0406 です。 WEBエンジニアにはご存じの方も多いと思いますが、転職ドラフトというWEBサービスがあります。 job-draft.jp このサービスは、次のような理念や問題感から始まった作られたものだそうです。素晴らしいです。 企業による公開競争入札。 これなら、自由競争でのリアルな相対価値がわかるようになる。 エンジニアだからこそ、より明確に。 誰が評価され、誰が評価されないのか。 自分の価値向上には、これから何をすべきなのか。 私も「友達を紹介してオライリー・ジャパンの本をGETしよう!」の文言につられて、友だちを3人紹介した上で登録したのですが、レジュメを丁寧に読んでダメ出ししてもらえ(
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く