[B! 情報抽出] fourthのブックマーク

fourth id:fourth

情報抽出に関するfourthのブックマーク (2)

MS WordやXMLファイルから情報を抽出するJavaライブラリ"Phoenix 1.1"
Phoenix-IEプロジェクトは17日、Javaによる情報抽出エンジンであるPhoenix 1.1を公開した。Phoenixを使用することで、XML形式で記述されたファイルから情報を構造化して取り出すことができる。またXMLだけでなく、XHTMLやOpenOffice.orgで作成されたsxwドキュメント、Microsoft Wordドキュメントなどもサポートする。 Phoenixを利用してファイルから情報を読み込むには、まず対象となるファイルの文法定義をXML形式で記述する必要がある。Phoenixの提供する情報抽出のためのParserクラスは、外部のXMLファイルから文法定義を読み込んでパーサを初期化できる。パーサによって取り出された情報はXPath表現や正規表現などによって分類され、木構造として保持される。文法定義ファイルにはそれらの情報からどのようなアクションを実行するかというこ
fourth 2005/06/23
java

情報抽出
リンク
Webstemmer（クローラーツール）
日本語サイトでは、具体的な性能は測定していませんが、以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞日刊スポーツ信濃毎日新聞 livedoor ニュース使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。取得したページのレイアウトを学習する。別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから本文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。ひとたびサイトのレイアウトを学習してしまえば、あとはレイアウトが大きく変更さ
fourth 2005/06/13
情報抽出
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx