[B! データマイニング] shogo4405のブックマーク

MUSASHI

shogo4405 2009/01/06

リンク

Weka 3 - Data Mining with Open Source Machine Learning Software in Java

Weka is a collection of machine learning algorithms for data mining tasks. It contains tools for data preparation, classification, regression, clustering, association rules mining, and visualization. Found only on the islands of New Zealand, the Weka is a flightless bird with an inquisitive nature. The name is pronounced like this, and the bird sounds like this. Weka is open source software issued

shogo4405 2009/01/06

リンク

【コラム】Yet Another 仕事のツール (46) 茶筌とMUSASHIで純和風テキストマイニング | エンタープライズ | マイコミジャーナル

日本語の自然文も、茶筌を使えば単語単位にバラバラに分割できる。しかし、ただそれだけで満足していても仕事のツールにはならないので、今回は、以前紹介したMUSASHIと組み合わせて、簡単なテキスト・マイニングを行ってみよう。例題は、「テキストの中に表れる名詞だけを抽出してその出現回数を数え、多い順に上位20位まで表示するHTMLドキュメントを作成する」としよう。なお、今回のテスト環境にはMac OS Xを使用しているため、文字エンコーディングがUTF-8の環境を前提としていることをあらかじめお断りしておく。最初に結論。茶筌とMUSASHIがインストールされていれば、以下のようなシェルスクリプトを書くことで今回の例題はクリアできる。 01　 #!/bin/bash 02　 cat ya44.txt | 03　 chasen -i w -F "%m,%H\n" | 04　 csv2xt -a 単

shogo4405 2009/01/05

データマイニング

リンク

自由回答データを定量的な切り口で分析するには？ ― ＠IT情報マネジメント

Webなどを通じて、顧客や利用者の意見を集めることが簡単にできるようになってきた。しかし、非定型の自由回答データは非常に有意義な意見を得ることができる反面、分析するのに手間が掛かる。手軽に定量分析する方法はないだろうか？ Webや電子メール、ケータイの普及で、幅広くさまざまな意見を募ることが安上がりにできるようになってきました。最近ではブログやSNSなどのCGMと呼ばれる口コミ系メディアも花盛りです。 Webアンケートも広く行われていますが、アンケートの回答は「出題側の仮説に影響される」という制約があり、“意外な発見”にはなかなか結び付きません。一方、メールなどで寄せられる自由回答や意見・要望はそうした制約もなく、何かビジネスのヒントがありそうですが定量的な分析ができないという弱みがあります。せいぜい分析者が文章を読んで主観的に解釈するぐらいにしか活用していないのではないでしょうか？あ

shogo4405 2009/01/05

データマイニング

リンク

MUSASHI プロジェクト日本語トップページ - OSDN

MUSASHIは、ビジネスにおけるデータマイニングの実施に必要となる、大量データ（標準のPCで数百万件から数千万件）を処理するために開発されたコマンド群です。リレーショナルデータベースの導入なしに、効率的かつ効果的にデータを処理することが可能となります。ダウンロード最新リリース 0_MUSASHI-PACKAGE 1.0.4-VL31 (日付: 2004-12-31) 5_MUSASHI-CHECK 20041206-2 (日付: 2004-12-06) 5_MUSASHI-CHECK 20041206 (日付: 2004-12-06) 4_MUSASHI-SCENARIO 20041206 (日付: 2004-12-06) 3_MUSASHI-MODULE 20041206 (日付: 2004-12-06)

shogo4405 2008/12/21

データマイニング

リンク

「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary

数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。（アドレナリンの放出音）数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日本語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。も

shogo4405 2008/12/07

リンク

ニフティ、奈良先端大と「経験マイニング」の応用手法を共同開発

ニフティは12月4日、奈良先端科学技術大学院大学（奈良先端大学）との産学連携により、ブログやソーシャルネットワーキングサービス、掲示板などのCGMコンテンツに記述された個人の経験を整理、分類するための言語処理技術「経験マイニング」の応用手法を共同開発したと発表した。奈良先端大学では、同技術の実用化に向けたデモサービスとして、商品やサービスについての購入経験、利用経験などが書かれたブログ記事を検索できるサービス「みんなの経験」を12月4日から公開した。膨大な情報の中から有用な情報だけを取り出すことができるため、利用者は第三者の体験談を発見することができ、企業は、CGM上で自社や競合他社の商品に関する意見を述べている人や、自社ブランドのファンの経験情報を容易に発見することができるとしている。ニフティでは、2007年4月から奈良先端大学情報科学研究科の乾健太郎准教授の研究グループと経験マイ

shogo4405 2008/12/07

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

データマイニングに関するshogo4405のブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス