cavoriteのブックマーク - はてなブックマーク

マルコフ連鎖で文生成 - のんびり読書日記
今回はデータマイニングっぽい話ではなくて、ちょいネタで。昨日の記事でWP2TXTを使ってwikipediaのテキスト情報を取り出したので、これを使ってちょっと遊んでみます。以前プログラミング作法を読んだときに載っていた、マルコフ連鎖を試してみたいと思います。プログラミング作法作者: ブライアンカーニハン,ロブパイク,Brian Kernighan,Rob Pike,福崎俊博出版社/メーカー: アスキー発売日: 2000/11メディア: 単行本購入: 58人クリック: 1,152回この商品を含むブログ (203件) を見る作ったのはこんな感じ。そろそろコードのベタ張りはやめます。次あたりからはgithubにでも置きますかね。あれってちゃんとしたプロジェクトものしか置かない方がいいのかなと思ってたのですが、別に勉強用コードを置いてる人も結構いるんですね。僕も適当に置きまくろう。 #!/
cavorite 2009/06/15
NLP
リンク
TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記
以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik
cavorite 2009/06/15
search

NLP
リンク
1

はてなブックマーク

タグ

ブックマーク / fujimizu.hatenablog.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / fujimizu.hatenablog.com (2)

マルコフ連鎖で文生成 - のんびり読書日記

TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス