データマイニングで用いられる知識発見技術は、バスケット分析・決定木・ニューラルネットワークなど多くの手法があります。だからといって全部を同時に利用することは考えられません。解析手法はそれぞれの役割があり、その目的に合わせて使い分けなければなりません。 それぞれの役割があると書きましたが、大きくわけると2つのタイプがあると思います。「データから本質を探る」タイプと「データから未知の現象を予測する」タイプです。 この章では、「データの洗浄」から「知識発見の方法」を交えて知識発見を考えてみます。
今回はTwitterという身近な題材を使って、Rによるデータ収集と可視化をやってみます。Rの豊富なライブラリを使えば意外に手軽にできます。 今回は間奏的にIT寄りの話題を この連載は@ITの連載でもかなり毛色の違う内容です。それにもかかわらず前回までの4回は、統計的検定をいきなり導入したり、日本政府や世界銀行の経済統計にアクセスしてみたり、さらにはWikiLeaksの暴露データを統計解析してみたりと、かなりハードコアな内容に走ってしまいました。 第4回の「あとがき」では同じ路線で突っ走ろうということを申し上げていたのですが、今回は間奏(インタリュード)として、より@ITらしく、IT寄りの話題を取り上げたいと思います。 TwitterとR Twitterの人気は世界的にまだまだ続いているようです。2010年8月後半に発表された2010年6月分の統計によれば、現在はインドネシアやブラジル、ベネ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く