タグ

ブックマーク / www.unixuser.org/~euske (4)

  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

    boxheadroom
    boxheadroom 2009/01/06
    本文抽出
  • PDFMiner

    Python PDF parser and analyzer Homepage Recent Changes PDFMiner API What's It? Download Where to Ask How to Install CJK languages support Command Line Tools pdf2txt.py dumppdf.py PDFMiner API Changes TODO Related Projects Terms and Conditions What's It? PDFMiner is a tool for extracting information from PDF documents. Unlike other PDF-related tools, it focuses entirely on getting and analyzing tex

    boxheadroom
    boxheadroom 2008/09/15
    官報読むのに使えるかな?
  • 風鈴、あるいは文字列検索フレームワーク

    ダウンロード: fooling-dist-20080220.tar.gz (415KBytes, 要 Python2.4以上) [SVN] [更新履歴] デモ: http://fooling.tabesugi.net:8080/ ご意見・ご質問はこちらへ: http://groups.google.com/group/fooling-users Fooling (風鈴) は Python用の文字列検索フレームワークです。 検索機能ヘルプ 使い方 インストール 諸注意 インデックスの作成 文書の追加 文書の更新 古くなったインデックスの削除 性能 バグ・作者への連絡 ライセンス Fooling コマンド一覧 Fooling API と実装 視覚障害者のための読みがなによる全文検索システム、その提案と実装 (おまけ、読みがな検索のアルゴリズムについて解説したもの) Fooling (風鈴) は

  • Python おもちゃばこ (敬称)

    新山が Python を使っていくうえで作りためた 簡単なコマンドやライブラリをまとめています (の、予定)。 Python 関連文書も興味があればご覧ください。 なお、ここで公開しているファイル/文書は特に断りがある場合を除きすべて public domain (一部 MIT/X ライセンス) とします。 新山祐介はこれらのプログラムについていかなる責任も負いません。 ユーティリティ clitrans.py C#標準ライブラリのリファレンスマニュアル (XML形式) から、簡単なテキスト形式のファイルを生成します。 sortbydate.py ファイルを古い順 (あるいは新しい順) にソートして表示します。 vnc2flv Another screen recorder. Pyntch Pythonコードアナライザ。型推論をおこない、起こる可能性のあるエラーを表示します。 tenjiwp

  • 1