タグ

wikipediaと自然言語処理に関するdenkenのブックマーク (2)

  • Wikipediaデータ解析ツールWik-IE

    Wik-IEはWikipediaで公開されているデータファイルを解析するJavaで書かれたツールです。 記事やカテゴリ・リダイレクト間の関係や他言語版へのリンクなどの情報を抽出します。 バージョン2.0から実行できる機能や、実行方法が変わりました。 また分散処理版とスタンドアロン版の区別をなくしました。1つのjarファイルでどちらの用途にも利用できます。 Wik-IEとは 要件 機能 使い方 ライセンス Wik-IEとは Wikipediaではその全データが誰でもダウンロード可能な形で公開されています。 そのデータファイルを解析し、記事やカテゴリ・リダイレクト間の関係や他言語版へのリンクなど、様々な情報を抽出するツールがWik-IEです。 Wik-IEはApache Hadoopプラットフォーム上での動作し、分散処理により高速で処理ができます。スタンドアロンでの動作も可能です。 要件 Wi

  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
  • 1