プロ野球のデータ分析をしようと思いましたが、想定したデータ形式にするまでに手間取ったので、その備忘録として記録しています。今回の目的は、数年分のプロ野球データをプロ野球データFreakから取得し、取得した各年の選手成績を統合するまでです。 選手成績の取得 スクレイピングという言葉も知らないまま、pandasでページに記載されている表をpandas形式に読み込めないかと探したら、丁度よいリンクHTML の表(<table>タグ) をスクレイピングする時も pandas が超便利がありました。 表も各ページに1つしかなく、また、各年の情報が記載されているURLのルールもシンプルだったため情報を取得するのに、工夫はありませんでした。今回は、投手データを規定回数に関係なく取得しています。条件によってURLが少し変わるので注意してください。 import numpy import pandas as