Weka is a collection of machine learning algorithms for data mining tasks. It contains tools for data preparation, classification, regression, clustering, association rules mining, and visualization. Found only on the islands of New Zealand, the Weka is a flightless bird with an inquisitive nature. The name is pronounced like this, and the bird sounds like this. Weka is open source software issued
日本語の自然文も、茶筌を使えば単語単位にバラバラに分割できる。しかし、ただそれだけで満足していても仕事のツールにはならないので、今回は、以前紹介したMUSASHIと組み合わせて、簡単なテキスト・マイニングを行ってみよう。例題は、「テキストの中に表れる名詞だけを抽出してその出現回数を数え、多い順に上位20位まで表示するHTMLドキュメントを作成する」としよう。なお、今回のテスト環境にはMac OS Xを使用しているため、文字エンコーディングがUTF-8の環境を前提としていることをあらかじめお断りしておく。 最初に結論。茶筌とMUSASHIがインストールされていれば、以下のようなシェルスクリプトを書くことで今回の例題はクリアできる。 01 #!/bin/bash 02 cat ya44.txt | 03 chasen -i w -F "%m,%H\n" | 04 csv2xt -a 単
Webなどを通じて、顧客や利用者の意見を集めることが簡単にできるようになってきた。しかし、非定型の自由回答データは非常に有意義な意見を得ることができる反面、分析するのに手間が掛かる。手軽に定量分析する方法はないだろうか? Webや電子メール、ケータイの普及で、幅広くさまざまな意見を募ることが安上がりにできるようになってきました。最近ではブログやSNSなどのCGMと呼ばれる口コミ系メディアも花盛りです。 Webアンケートも広く行われていますが、アンケートの回答は「出題側の仮説に影響される」という制約があり、“意外な発見”にはなかなか結び付きません。 一方、メールなどで寄せられる自由回答や意見・要望はそうした制約もなく、何かビジネスのヒントがありそうですが定量的な分析ができないという弱みがあります。せいぜい分析者が文章を読んで主観的に解釈するぐらいにしか活用していないのではないでしょうか? あ
MUSASHIは、ビジネスにおけるデータマイニングの実施に必要となる、大量データ(標準のPCで数百万件から数千万件)を処理するために開発されたコマンド群です。リレーショナルデータベースの導入なしに、効率的かつ効果的にデータを処理することが可能となります。 ダウンロード 最新リリース 0_MUSASHI-PACKAGE 1.0.4-VL31 (日付: 2004-12-31) 5_MUSASHI-CHECK 20041206-2 (日付: 2004-12-06) 5_MUSASHI-CHECK 20041206 (日付: 2004-12-06) 4_MUSASHI-SCENARIO 20041206 (日付: 2004-12-06) 3_MUSASHI-MODULE 20041206 (日付: 2004-12-06)
数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。 同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。(アドレナリンの放出音) 数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日本語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。 も
ニフティは12月4日、奈良先端科学技術大学院大学(奈良先端大学)との産学連携により、ブログやソーシャルネットワーキングサービス、掲示板などのCGMコンテンツに記述された個人の経験を整理、分類するための言語処理技術「経験マイニング」の応用手法を共同開発したと発表した。 奈良先端大学では、同技術の実用化に向けたデモサービスとして、商品やサービスについての購入経験、利用経験などが書かれたブログ記事を検索できるサービス「みんなの経験」を12月4日から公開した。 膨大な情報の中から有用な情報だけを取り出すことができるため、利用者は第三者の体験談を発見することができ、企業は、CGM上で自社や競合他社の商品に関する意見を述べている人や、自社ブランドのファンの経験情報を容易に発見することができるとしている。 ニフティでは、2007年4月から奈良先端大学情報科学研究科の乾健太郎准教授の研究グループと経験マイ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く