タグ

2009年7月6日のブックマーク (2件)

  • WP2TXT: Wikipedia to Text Converter

    WP2TXT: Wikipedia to Text Converter ソフトウェアは無保証です。ライセンスを確認の上、自己責任で使用してください。 ドキュメントは書きかけです。以下の仕様は今後変更する可能性があります。 1. はじめに WP2TXT は BZ2 圧縮された Wikipedia データダンプ XML ファイルからテキストデータを抽出し、コーパス言語学の研究などに 適した形式に整形します。通常のテキストフィルタと異なり、言語研究に主眼を置いて いるため「センテンス」の形式を備えた文字列のみを取り出します。 現在はWikipedia語版にのみ対応しています。 WP2TXT は Ruby 言語によって作成されており、 wxRuby ライブラリによる WindowsGUI インタフェイスを備えています。また Linux などではコマンドラインプログラム とし

  • TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

    以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。 今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。 形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik

    TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記