タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

情報抽出とjavaに関するfourthのブックマーク (1)

  • MS WordやXMLファイルから情報を抽出するJavaライブラリ"Phoenix 1.1"

    Phoenix-IEプロジェクトは17日、Javaによる情報抽出エンジンであるPhoenix 1.1を公開した。Phoenixを使用することで、XML形式で記述されたファイルから情報を構造化して取り出すことができる。またXMLだけでなく、XHTMLやOpenOffice.orgで作成されたsxwドキュメント、Microsoft Wordドキュメントなどもサポートする。 Phoenixを利用してファイルから情報を読み込むには、まず対象となるファイルの文法定義をXML形式で記述する必要がある。Phoenixの提供する情報抽出のためのParserクラスは、外部のXMLファイルから文法定義を読み込んでパーサを初期化できる。パーサによって取り出された情報はXPath表現や正規表現などによって分類され、木構造として保持される。文法定義ファイルにはそれらの情報からどのようなアクションを実行するかというこ

  • 1