タグ

2007年9月6日のブックマーク (4件)

  • Webstemmer

    How to Use Text extraction with Webstemmer has the following steps: Obtain a number of "seed" pages from a particular site. Learn the layout patterns from the obtained pages. Later on, obtain updated pages from the same site. Extract texts from the newly obtained pages using the learned patterns. Step 1. and 2. are only required at the first time. Once you learned the layout patterns, you can use

    bonlife
    bonlife 2007/09/06
    Webstemmer is a web crawler and HTML layout analyzer
  • [ThinkIT] Ruby関連リンク集総まとめ (1/2)

    Ruby http://www.ruby-lang.org/ja/ Ruby公式サイト。 Rubyダウンロードページ http://www.ruby-lang.org/ja/downloads/ Rubyインタプリタの代表的な入手方法を掲載。 Rubyリファレンスマニュアル http://www.ruby-lang.org/ja/man/ Rubyのリファレンスマニュアル。一括ダウンロードも可能。 try ruby!(英語) http://tryruby.hobix.com/ RubyをインストールせずにWebブラウザ上でRubyを利用できるサイト。対話的なチュートリアルに従ってRubyを学習することができる。 RAA−Ruby Application Archive英語) http://raa.ruby-lang.org/ Rubyで実装されたアプリケーションやライブラリ、ドキュメント

  • 2007-09-05 - すちゃらか社員日記

    mixi マイミクの誕生日を取得する(ついでに Google Calendar にポストする) Python | 最近コード書けてないね(><)焦っちゃうね。 という訳で mixi のマイミクの誕生日を取得する Python スクリプトを書いてみました。 #!/usr/bin/env python # -*- coding: utf-8 -*- # # opmixi.py # __author__ = 'kyoshida' from time import sleep from mechanize import Browser from BeautifulSoup import BeautifulSoup BASE_URL = 'http://mixi.jp/' HOME_PL = 'home.pl' CAL_PL = 'show_calendar.pl' YEAR = 2006 c

    bonlife
    bonlife 2007/09/06
    mechanize と BeautifulSoup と gdata.calendar
  • 情報処理 II, 第6回

    以下のサンプルプログラムをダウンロードしよう。 ドキュメントフォルダに python という名前のフォルダを作って、 リンクで右クリック → [対象をファイルに保存] → 保存先を上記のフォルダに指定 →「ファイルの種類」を「すべてのファイル」にして → [保存] ファイル名に拡張子 .txt が付いてしまった人は名前を変更して .txt を取っておこう。 circleratio.py / 実行例 ... 円周率を計算するプログラム (1万桁もあっという間) Napier.py / 実行例 ... ネピア数(自然対数の底)を求めるプログラム (1万桁もあっという間) rootx.py / 実行例 ... 自然数の平方根を求めるプログラム (1万桁もあっという間) primetable.py / 実行例 ... 素数表を作るプログラム (百万までの素数表もあっという間) twinprime.