はじめに HTML の解析に便利な BeautifulSoup(Python ライブラリ)を使って HTML 文書のテキスト部分の切り出しを試みましたというお話です.「間違えているところがある」とか「もっと良い方法がある」という場合,コメントをいただけると幸いです. ※ HTML 文書の焦点抽出(ニュースやブログからの記事抽出など)については考慮していません. 追記(2010-06-21):このお話には続き(続・BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記)があり,追加の問題とその対処について説明しています. BeautifulSoup とは BeautifulSoup は,以下のサイトでダウンロードできる Python 用のライブラリです.インストールをしなくても,アーカイブの中にある BeautifulSoup.py をコピーす