Webスクレイピング¶ WebサイトはHTMLを使用して書かれています。つまり、各Webページは構造化文書です。時には、それらからいくつかのデータを取得し、私たちがその間に構造を保存することは素晴らしいことでしょう。 Webサイトは、 csv や json などの快適な形式でデータを提供するとは限りません。 Webスクレイピングは、コンピュータプログラムを使用してWebページを調べ、必要なデータを、同時にデータの構造を保持しながら、最も便利な形式で収集するプラクティスです。 lxml と Requests¶ lxml はXMLやHTML文書を非常に素早く解析するために書かれた非常に広範囲なライブラリです。 また、速度と可読性が向上したため、すでに組み込まれているurllib2モジュールの代わりに Requests モジュールも使用します。 pip install lxml と pip in