Beautiful Soup とはPython 標準の html.parser モジュールは、SAX 形式のイベントドリブンなパーサなため、若干扱いにくいところがあります。 Beautiful Soup ライブラリを使用することで、HTML の要素に簡単にアクセスすることができるようになります。 Beautiful Soap DocumentationBeautiful Soup パッケージは次のようにインストールできます。

今回は、これまで細かく説明してこなかったselfについて扱います。self自体については割りきってしまえば非常に単純明快なので、細かい話に興味がない人は最初の節のみ読んでいただければ大丈夫です。2節目以降は、かなり前の関数やモジュールの回で説明した「名前空間」と「スコープ」に関わる話となります。 メソッドのselfについて まず前回までの復習をします。Pythonのクラスのメソッドやコンストラクタでは第一引数をselfとし、それらの定義されたメソッドを呼び出す際はselfに該当する引数を指定しないのでした。 たとえば、以下のクラスのコンストラクタ__init__とmethod1の利用方法を見ればわかりますね。宣言にはselfがありますが、呼び出しにはselfに相当するものがありません。 class MyClass: def __init__(self): print('constructe
Pythonのライブラリ(Beautiful Soup)を利用してスクレイピングしてみた インストールとタグ操作root@hostname:/home/shimizu/python# aptitude install python-bs4 以下の新規パッケージがインストールされます: python-bs4 python-chardet{a} python-lxml{a} ... root@hostname:/home/shimizu/python# cat scraping-bs4.py # coding: UTF-8 import urllib2 from bs4 import BeautifulSoup res = urllib2.urlopen("http://ll.jus.or.jp/2014/program.html") # オブジェクト<class 'bs4.element.R
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く