[B! Python][Work] hiro-rockのブックマーク

hiro-rock id:hiro-rock

PythonとWorkに関するhiro-rockのブックマーク (2)

2008-01-12 - Future Insight
実際に取得した画像がどんなことになっているか把握したかったので、画像2100枚をHTMLで出力してみました。75x75の画像を読み込んでおり、画像をクリックするとlightboxして元のサイズの画像にアクセスします。下のtitleをクリックするとFlickrのページに飛びます。軽くなるように気をつけましたが、それでも結構CPUパワーを使うので、遅いPCで開くときは気をつけてください。 http://choichoi.sakura.ne.jp/idols/ こうやって眺めてみるとFlickrにあがりやすいアイドルとあがりにくいアイドルというのがいるようです。小倉優子は500枚取得しても、まだまだたくさん画像があるようでした。さすがグラビアを終わらせたアイドルです。この辺りの考察はまた後で行いたいと思います。 [追記]アイドルの名前のスペルミス、画像を取得できないアイドルの整理し、データを取り
hiro-rock 2008/01/13
あとでグラビア画像取得のpythonコード

Python

Photo

Work
リンク
Webstemmer（クローラーツール）
日本語サイトでは、具体的な性能は測定していませんが、以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞日刊スポーツ信濃毎日新聞 livedoor ニュース使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。取得したページのレイアウトを学習する。別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから本文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。ひとたびサイトのレイアウトを学習してしまえば、あとはレイアウトが大きく変更さ
hiro-rock 2007/09/03
本文抽出クローラ

Work

Linux

Python

Ubuntu
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx