aidiaryのブックマーク / 2009年7月6日

TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik

はてなブックマーク

タグ

2009年7月6日のブックマーク (2件)

WP2TXT: Wikipedia to Text Converter

TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第3週）

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス