odawaraのブックマーク / 2010年11月22日

odawara id:odawara

2010年11月22日のブックマーク (25件)

http://twitter.com/about/resources/widgets/widget_profile
odawara 2010/11/22
twitter
リンク
Panopticon :: Python :: BeautifulSoupを触ってみる
ちょっとHTMLをパースする必要があったので、BeautifulSoupを使ってみました。参考にさせていただいたサイトはこちら。あかさかランチにっき: BeautifulSoupによるスクレイピングの練習あかさかランチにっき: 続・BeautifulSoupのスクレイピングの練習 Perl使いのPythonちゃん: BeautifulSoupでHTML解析 Perl使いのPythonちゃん: PythonでGoogleの表示順位を取得特定タグの抽出 >>> from BeautifulSoup import BeautifulSoup >>> import urllib2 >>> url = 'http://www.crummy.com/software/BeautifulSoup/documentation.html' >>> html = urllib2.urlopen(u
odawara 2010/11/22
BeautifulSoup

HTML

Python
リンク
BeautifulSoup と戯れる - 銀月の符号
HTML 文章を情報源としてデータを構築するときのお供に、 BeautifulSoup 。やはり便利。テキストに変換 HTML 文章を強引にプレーンテキストに直してみる。 soup2string 呼び出し可能オブジェクト。 >>> from BeautifulSoup import BeautifulSoup >>> html = '<html><body><p>aaa<br />bbb<a href="spam.html">ccc</a></p></body></html>' >>> soup = BeautifulSoup(html) >>> soup2string(soup.p) u'aaa\nbbbccc[spam.html]'soup2string のコードは以下。今のところ a, br, p 以外のタグは剥がすのみ。body タグ全部を食わせるつもりならば h1, h2, h
odawara 2010/11/22
BeautifulSoup

HTML

python
リンク
BeautifulSoupを使ってみたけど挫折した件 – taichino.com
もっぱらHTMLからの情報取得はWeb::Scraperな訳ですが、GAE上でもスクレイピングできたら嬉しいのでBeautifulSoupを使ってみたのですが挫折したメモ書きです。まずは手始めに以下のscraperでYahoo JapanのトップページからタイトルとtopicsのURLを取得するperlスクリプトを移植してみる事にしました。 #!/usr/bin/perl use strict; use warnings; use LWP::Simple; use Web::Scraper; use YAML; my $content = get("http://yahoo.co.jp"); my $scraper = scraper { process '//title', 'title' => 'TEXT'; process '//a[@href =~ /.+topics.+/]'
odawara 2010/11/22
BeautifulSoup

Python
リンク
beautifulsoup – taichino.com
しばらくベンチマークコードを書いてなくてすっかり忘れていたので、メモ書きです。今回は例題として、yahooのこのページをBeautifulSoupとlxmlでのスクレイピング比較をしてみる事にしました。比較対象の関数は以下の通りです。どちらのコードも入力・出力ともに同じなので、どちらが実行時間やメモリ使用量が少ないのかを知りたくなりますね。 # BeautifulSoup def scrape_with_bs(html): from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) rows = soup.find('table', attrs={'class':'channel9'}).findAll('tr') channels = rows[0].findAll('td', attrs={'class':'st
odawara 2010/11/22
BeautifulSoup

HTML

Python
リンク
https://dp25299446.lolipop.jp/pikamap/html_seikei.php
odawara 2010/11/22
HTML

PHP

XML
リンク
Oracle Developer Tools for Visual Studio（ODT）の利用
Oracleが提供しているVisual Studioのアドイン「Oracle Developer Tools for Visual Studio」（ODT）を導入すると、Oracleデータベースを操作するさまざまな機能が使えるようになります。今回は、ODTのインストールと設定方法について説明し、ODTの目玉機能の一つであるPL/SQLコード・エディタを使用した、Oracleのストアドプロシージャ開発について説明します。はじめに Oracleは、Oracle Developer Tools for Visual Studio（以下、ODT）と呼ばれるVisual Studioのアドインを提供しています。ODTは次のようにさまざまな機能を提供しています。 Oracleエクスプローラデザイナとウィザード自動コード生成機能 PL/SQLコード・エディタ Oracleデータ・ウィンドウ Ora
odawara 2010/11/22
Oracle
リンク
pythonでHTML解析 - 清水川Web
odawara 2010/11/22
HTMLParser

Python

urllib

HTML
リンク
【Hothotレビュー】デル(ソフトバンクモバイル)「Streak」～Android 2.2実装で国内販売が決まった5型タブレット
odawara 2010/11/22
Android
リンク
サービス終了のお知らせ
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
odawara 2010/11/22
DOM

XML

Python
リンク
BlogSlime – Just another WordPress site
コンテンツへスキップ登録は無効化されました。
odawara 2010/11/22
BeautifulSoup

HTML

Python
リンク
Phactory: Python: BeautifulSoupで、HTML/XMLをらくらくパージング
BeautifulSoupとは、HTML/SGML/XMLをパージングするPythonライブラリです。ネーミングにセンスを感じさせるこのライブラリは、実用として考えても大変有用なライブラリです。これを使い始めると、ありとあらゆるHTML/XMLをいじり倒したくなります。ダウンロード BeautifulSoupは、Pythonの標準ライブラリではありませんので、使用するためには以下サイトからDL＆インストールする必要があります。 http://www.crummy.com/software/BeautifulSoup/ インストール方法 BeautifulSoup.pyを上記サイトからDLしてきて、 pythonのライブラリ置場である「site-packages/」に配置するだけでOKです。その上で、 #!/usr/bin/python from BeautifulSoup
odawara 2010/11/22
BeautifulSoup

Python

HTML

XML
リンク
BeautifulSoupによるスクレイピングの練習 - Bouldering & Com.
練習その1 aタグのhref属性の列挙 import urllib import BeautifulSoup soup = BeautifulSoup.BeautifulSoup(urllib.urlopen('url')) for _a in soup.findAll('a'): _a.get('href') 練習その2 aタグであり href属性にhtmlという文字列が含まれており子要素としてimgタグを持っており子要素のimgタグのsrc属性がjpgという文字列を含んでいる import urllib import BeautifulSoup soup = BeautifulSoup.BeautifulSoup(urllib.urlopen('url')) soup.findAll(lambda tag : tag.name == 'a' and 'html' in tag.
odawara 2010/11/22
BeautifulSoup

urllib

Python

HTML
リンク
BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記
はじめに HTML の解析に便利な BeautifulSoup（Python ライブラリ）を使って HTML 文書のテキスト部分の切り出しを試みましたというお話です．「間違えているところがある」とか「もっと良い方法がある」という場合，コメントをいただけると幸いです． ※ HTML 文書の焦点抽出（ニュースやブログからの記事抽出など）については考慮していません．追記（2010-06-21）：このお話には続き（続・BeautifulSoup で HTML 文書からタグを取り除く（Python） - やた＠はてな日記）があり，追加の問題とその対処について説明しています． BeautifulSoup とは BeautifulSoup は，以下のサイトでダウンロードできる Python 用のライブラリです．インストールをしなくても，アーカイブの中にある BeautifulSoup.py をコピーす
odawara 2010/11/22
BeautifulSoup

Python

HTML
リンク
はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
odawara 2010/11/22
Python
リンク
文字列の置換
文字列の置換文字列の置換も簡単に行えます。文字列の置き換えはre.subまたはre.subnメソッドを使います。re.subはつぎのようなプロトタイプを持ち、結果として置換された文字列を返します。 sub(pattern, repl, string[, count = 0]) count=0はpatternに一致したすべての部分文字列を置き換えることを示します。 re.subnはsubと同じに文字列を置換しますが、結果として次のような組(tuple)を返します。 (置換後の文字列、置換された部分文字列の数) リスト１にsubとsubnの使用例を示します。リスト１ # # 文字列の置換 # import re s = "password = 01234" y = re.sub("[0-9]", "*", s) print y s = "his name is paul." y = re.
odawara 2010/11/22
Python

正規表現

文字列操作
リンク
サービス終了のお知らせ
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
odawara 2010/11/22
正規表現

Python

文字列操作
リンク
Pythonでの文字列置換をマスターする - orangain flavor
Pythonの文字列置換は、置換の仕方やバージョンによって利用すべきモジュールが異なっており、少しわかりにくいので、Python 2.xでのstrとunicode、3.xでのstrでの置換をまとめます。文字列による単純な置換 (str.replace) str (2.x) / unicode / str (3.x)のどれでもほぼ同じです。 src = 'I like orange.' dst = src.replace('orange', 'apple') # 'I like apple.' str.replaceの第3引数で置換を行う最大回数を指定できます。 str.replace (2.x) str.replace (3.x) 正規表現による置換 (re.sub) str (2.x) / unicode / str (3.x)のどれでもほぼ同じです。 import re src =
odawara 2010/11/22
Python

文字列操作
リンク
技術情報メモ « WordPressのホームページ制作東京都杉並区サウンドボード
数年放置していた公式ブログ（旧）を取り込み復活させました（笑い）かなり古い情報もありますので、利用される際はご注意くださいませ。 SEO・SEM対策的な意味もありそのままのドメインではなく、新ホームページ内でやっていこうかと。もっともいつまた放置が始まるかわかりませんが…
odawara 2010/11/22
Python
リンク
サービス終了のお知らせ
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
odawara 2010/11/22
XML

Python

HTML

DOM
リンク
【Python】 replace関数を使って特定の文字列を置き換える | 『豆のCG回顧録』
odawara 2010/11/22
Python

文字列操作
リンク
add9.biz - add9 リソースおよび情報
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
odawara 2010/11/22
Python

文字列操作
リンク
辞書から要素を削除する
作成済みの辞書からキー指定して要素を削除したり、すべての要素を削除する方法について解説します。要素の削除には del 文や pop メソッドや popit em メソッドを使用します。またすべての要素を削除するには clear メソッドを使用します。
odawara 2010/11/22
Python
リンク
Python で変数の型 (クラス) を調べる – types モジュール
1. type, isinstance 関数で、変数の型を調べる Python で、変数の中身が、どのクラスに所属するのか、または、関数なのか調べたい。 2.1 組み込み関数によると、（装飾は、引用者による） type(object) object の型を返します。返される値は型オブジェクトです。 isinstance(object, classinfo) 引数 object が引数 classinfo のインスタンスであるか、 (直接または間接的な) サブクラスのインスタンスの場合に真を返します。例えば、「数値」の場合、次のようにして、数値に対して type 関数を適用する。 print type(100) #=> <type 'int'> type 関数の結果を用いて、isinstance 関数の引数に指定した。 print isinstance(100, int)
odawara 2010/11/22
Python
リンク
http://ja.doukaku.org/comment/4224/
odawara 2010/11/22
Python

文字列操作

正規表現
リンク
- 2010年11月23日
- 2010年11月22日
- 2010年11月21日