エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
HTML の表 (<table> タグ) をスクレイピングする時も pandas が超便利 - Qiita
HTML の表をスクレイピングするのは結構だるい作業です。 私は以前は、単純な HTML であれば、うまく特... HTML の表をスクレイピングするのは結構だるい作業です。 私は以前は、単純な HTML であれば、うまく特徴を見つけて awk や sed を作ったり、 Perl の正規表現で取り出したり、 Google Chrome のコンソールから XPath を使って取り出すような苦労をやっていました。 ところで pandas というとデータ解析用のツールとして主流ではあるのですが、 意外にも HTML からのデータ入力も可能になっていて、これが表のスクレイピングにはかなり楽だということがわかりました。 なので紹介してみます。 サンプルに使うページ 以下で示すサンプルに国税庁の所得税の税率のページを使うことにしました。 https://www.nta.go.jp/taxes/shiraberu/taxanswer/shotoku/2260.htm (2019.9.28 移転したようなので、URLを
2017/08/10 リンク