タグ

HTMLとpythonに関するclavierのブックマーク (3)

  • 本の季節感を可視化してみる【D3.js】【Pythonによるスクレイピング】 - roombaの日記

    目次 はじめに 読書メーターのスクレイピング 概要 Pythonによる実装 実装上のポイント ソースコード 結果 D3.jsによるグラフの描画 概要 実装 結果 クリスマス・キャロル(新潮文庫) 二百十日・野分 (新潮文庫) 桜の森の満開の下 (講談社文芸文庫) 雪国 (新潮文庫) 草枕 (新潮文庫) おわりに はじめに 以前の記事で、読書メーターという読書記録サービスからデータを収集して分析するということをやってみました。roomba.hatenablog.com この記事では、その応用として「の季節感を可視化」してみます。より具体的には、Pythonによる「読書メーター」のスクレイピングによって「あるが何月に読まれることが多いか」を調べ、D3.jsというデータ可視化Javascriptライブラリを用いてブラウザ上にグラフを描画します。 これにより、『クリスマス・キャロル』をクリスマ

    本の季節感を可視化してみる【D3.js】【Pythonによるスクレイピング】 - roombaの日記
  • HTML の表 (<table> タグ) をスクレイピングする時も pandas が超便利 - Qiita

    HTML の表をスクレイピングするのは結構だるい作業です。 私は以前は、単純な HTML であれば、うまく特徴を見つけて awk や sed を作ったり、 Perl の正規表現で取り出したり、 Google Chrome のコンソールから XPath を使って取り出すような苦労をやっていました。 ところで pandas というとデータ解析用のツールとして主流ではあるのですが、 意外にも HTML からのデータ入力も可能になっていて、これが表のスクレイピングにはかなり楽だということがわかりました。 なので紹介してみます。 サンプルに使うページ 以下で示すサンプルに国税庁の所得税の税率のページを使うことにしました。 https://www.nta.go.jp/taxes/shiraberu/taxanswer/shotoku/2260.htm (2019.9.28 移転したようなので、URLを

    HTML の表 (<table> タグ) をスクレイピングする時も pandas が超便利 - Qiita
  • 初めてのHTTP/2サーバプッシュ | GREE Engineering

    前回はWebサイトをHTTP/2に対応するためにリバースプロキシを検証した記事を書かせていただきました(HTTP2を試してみる)。 あれから幾つかの議論を経てHTTP/2の仕様も大分安定してきており、HTTP/2を実装したクライアントや実験的にHTTP/2を有効にしているサービスもあるので実際に試すことも出来ます。 そこで今回は応用編としてHTTP/2のサーバプッシュについて、その仕組と実際に試したことについて書かせていただきます。 余談ですが、 現在の仕様では "HTTP2.0" ではなく "HTTP/2" もしくは "HTTP2" が正しい名称になります。 HTTP/2概要 まず、軽くHTTP/2の概要に触れておきます。 HTTP/2は2012年の末頃より、HTTP/1のセマンティクスを維持したままパフォーマンスを改善する目的で議論が開始されました。 Googleの考案したSPDYと言

    初めてのHTTP/2サーバプッシュ | GREE Engineering
  • 1