先日BeautifulSoupを使おうとして挫折した訳ですが、そうは言ってもGAEではlxmlが使えない以上、GAE上でスクレイピングする場合は使うしかないです。htmlのパーサーなんて書く気にならないのであります。書く力が無いのであります。 しかし先日も書いたように使ってみると、割と頻繁にパースエラーが発生して処理できなくなります。例えば(http://mlb.mlb.com/stats/historical/player_stats.jsp)を実際にパースしてみると以下の様なエラーが発生します。 >>> import urllib >>> from BeautifulSoup import BeautifulSoup >>> source = urllib.urlopen('http://mlb.mlb.com/stats/historical/player_stats.jsp').r