ここ最近Pythonのlxmlモジュールを試していて、RSS1.0形式のデータをXPathで検索する場合は名前空間を指定しなければならないことを知った。 例えば、RSSから各記事のタイトル部分を取得したいとして RSS2.0の場合、「 /rss/channel/item/title 」でOKなのだが、 RSS1.0の場合、「 /rdf:RDF/item/title 」というようにルートノードから順に並べただけでは取得できない。 RSS1.0、RSS2.0、それぞれをダウンロードする。 $ wget -q http://www.pheedo.jp/f/gigazine_1 && mv gigazine_1 gigazine_rss1.xml $ wget -q http://www.pheedo.jp/f/gigazine_2 && mv gigazine_2 gigazine_rss2.x