ちょっとHTMLをパースする必要があったので、BeautifulSoupを使ってみました。参考にさせていただいたサイトはこちら。 あかさかランチにっき: BeautifulSoupによるスクレイピングの練習 あかさかランチにっき: 続・BeautifulSoupのスクレイピングの練習 Perl使いのPythonちゃん: BeautifulSoupでHTML解析 Perl使いのPythonちゃん: PythonでGoogleの表示順位を取得 特定タグの抽出 >>> from BeautifulSoup import BeautifulSoup >>> import urllib2 >>> url = 'http://www.crummy.com/software/BeautifulSoup/documentation.html' >>> html = urllib2.urlopen(u
HTML 文章を情報源としてデータを構築するときのお供に、 BeautifulSoup 。やはり便利。 テキストに変換 HTML 文章を強引にプレーンテキストに直してみる。 soup2string 呼び出し可能オブジェクト。 >>> from BeautifulSoup import BeautifulSoup >>> html = '<html><body><p>aaa<br />bbb<a href="spam.html">ccc</a></p></body></html>' >>> soup = BeautifulSoup(html) >>> soup2string(soup.p) u'aaa\nbbbccc[spam.html]'soup2string のコードは以下。今のところ a, br, p 以外のタグは剥がすのみ。body タグ全部を食わせるつもりならば h1, h2, h
もっぱらHTMLからの情報取得はWeb::Scraperな訳ですが、GAE上でもスクレイピングできたら嬉しいのでBeautifulSoupを使ってみたのですが挫折したメモ書きです。 まずは手始めに以下のscraperでYahoo Japanのトップページから タイトルとtopicsのURLを取得するperlスクリプトを移植してみる事にしました。 #!/usr/bin/perl use strict; use warnings; use LWP::Simple; use Web::Scraper; use YAML; my $content = get("http://yahoo.co.jp"); my $scraper = scraper { process '//title', 'title' => 'TEXT'; process '//a[@href =~ /.+topics.+/]'
しばらくベンチマークコードを書いてなくてすっかり忘れていたので、メモ書きです。今回は例題として、yahooのこのページをBeautifulSoupとlxmlでのスクレイピング比較をしてみる事にしました。比較対象の関数は以下の通りです。どちらのコードも入力・出力ともに同じなので、どちらが実行時間やメモリ使用量が少ないのかを知りたくなりますね。 # BeautifulSoup def scrape_with_bs(html): from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) rows = soup.find('table', attrs={'class':'channel9'}).findAll('tr') channels = rows[0].findAll('td', attrs={'class':'st
Oracleが提供しているVisual Studioのアドイン「Oracle Developer Tools for Visual Studio」(ODT)を導入すると、Oracleデータベースを操作するさまざまな機能が使えるようになります。今回は、ODTのインストールと設定方法について説明し、ODTの目玉機能の一つであるPL/SQLコード・エディタを使用した、Oracleのストアドプロシージャ開発について説明します。 はじめに Oracleは、Oracle Developer Tools for Visual Studio(以下、ODT)と呼ばれるVisual Studioのアドインを提供しています。ODTは次のようにさまざまな機能を提供しています。 Oracleエクスプローラ デザイナとウィザード 自動コード生成機能 PL/SQLコード・エディタ Oracleデータ・ウィンドウ Ora
コンテンツへスキップ 登録は無効化されました。
BeautifulSoupとは、HTML/SGML/XMLをパージングするPythonライブラリです。 ネーミングにセンスを感じさせるこのライブラリは、実用として考えても大変有用なライブラリです。 これを使い始めると、ありとあらゆるHTML/XMLをいじり倒したくなります。 ダウンロード BeautifulSoupは、Pythonの標準ライブラリではありませんので、 使用するためには以下サイトからDL&インストールする必要があります。 http://www.crummy.com/software/BeautifulSoup/ インストール方法 BeautifulSoup.pyを上記サイトからDLしてきて、 pythonのライブラリ置場である「site-packages/」に配置するだけでOKです。 その上で、 #!/usr/bin/python from BeautifulSoup
練習 その1 aタグのhref属性の列挙 import urllib import BeautifulSoup soup = BeautifulSoup.BeautifulSoup(urllib.urlopen('url')) for _a in soup.findAll('a'): _a.get('href') 練習 その2 aタグであり href属性にhtmlという文字列が含まれており 子要素としてimgタグを持っており 子要素のimgタグのsrc属性がjpgという文字列を含んでいる import urllib import BeautifulSoup soup = BeautifulSoup.BeautifulSoup(urllib.urlopen('url')) soup.findAll(lambda tag : tag.name == 'a' and 'html' in tag.
はじめに HTML の解析に便利な BeautifulSoup(Python ライブラリ)を使って HTML 文書のテキスト部分の切り出しを試みましたというお話です.「間違えているところがある」とか「もっと良い方法がある」という場合,コメントをいただけると幸いです. ※ HTML 文書の焦点抽出(ニュースやブログからの記事抽出など)については考慮していません. 追記(2010-06-21):このお話には続き(続・BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記)があり,追加の問題とその対処について説明しています. BeautifulSoup とは BeautifulSoup は,以下のサイトでダウンロードできる Python 用のライブラリです.インストールをしなくても,アーカイブの中にある BeautifulSoup.py をコピーす
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
文字列の置換 文字列の置換も簡単に行えます。文字列の置き換えはre.subまたはre.subnメソッドを使います。re.subはつぎのようなプロトタイプを持ち、結果として置換された文字列を返します。 sub(pattern, repl, string[, count = 0]) count=0はpatternに一致したすべての部分文字列を置き換えることを示します。 re.subnはsubと同じに文字列を置換しますが、結果として次のような組(tuple)を返します。 (置換後の文字列、置換された部分文字列の数) リスト1にsubとsubnの使用例を示します。 リスト1 # # 文字列の置換 # import re s = "password = 01234" y = re.sub("[0-9]", "*", s) print y s = "his name is paul." y = re.
Pythonの文字列置換は、置換の仕方やバージョンによって利用すべきモジュールが異なっており、少しわかりにくいので、Python 2.xでのstrとunicode、3.xでのstrでの置換をまとめます。 文字列による単純な置換 (str.replace) str (2.x) / unicode / str (3.x)のどれでもほぼ同じです。 src = 'I like orange.' dst = src.replace('orange', 'apple') # 'I like apple.' str.replaceの第3引数で置換を行う最大回数を指定できます。 str.replace (2.x) str.replace (3.x) 正規表現による置換 (re.sub) str (2.x) / unicode / str (3.x)のどれでもほぼ同じです。 import re src =
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
1. type, isinstance 関数で、変数の型を調べる Python で、変数の中身が、どのクラスに所属するのか、または、関数なのか調べたい。 2.1 組み込み関数 によると、 (装飾は、引用者による) type(object) object の型を返します。返される値は型オブジェクトです。 isinstance(object, classinfo) 引数 object が引数 classinfo のインスタンスであるか、 (直接または間接的な) サブクラスのインスタンスの場合に真を返します。 例えば、「数値」の場合、次のようにして、数値に対して type 関数を適用する。 print type(100) #=> <type 'int'> type 関数の結果を用いて、isinstance 関数の引数に指定した。 print isinstance(100, int)
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く