タグ

2009年1月5日のブックマーク (4件)

  • 【コラム】Yet Another 仕事のツール (46) 茶筌とMUSASHIで純和風テキストマイニング | エンタープライズ | マイコミジャーナル

    語の自然文も、茶筌を使えば単語単位にバラバラに分割できる。しかし、ただそれだけで満足していても仕事のツールにはならないので、今回は、以前紹介したMUSASHIと組み合わせて、簡単なテキスト・マイニングを行ってみよう。例題は、「テキストの中に表れる名詞だけを抽出してその出現回数を数え、多い順に上位20位まで表示するHTMLドキュメントを作成する」としよう。なお、今回のテスト環境にはMac OS Xを使用しているため、文字エンコーディングがUTF-8の環境を前提としていることをあらかじめお断りしておく。 最初に結論。茶筌とMUSASHIがインストールされていれば、以下のようなシェルスクリプトを書くことで今回の例題はクリアできる。 01  #!/bin/bash 02  cat ya44.txt | 03  chasen -i w -F "%m,%H\n" | 04  csv2xt -a 単

  • 自由回答データを定量的な切り口で分析するには? ― @IT情報マネジメント

    Webなどを通じて、顧客や利用者の意見を集めることが簡単にできるようになってきた。しかし、非定型の自由回答データは非常に有意義な意見を得ることができる反面、分析するのに手間が掛かる。手軽に定量分析する方法はないだろうか? Webや電子メール、ケータイの普及で、幅広くさまざまな意見を募ることが安上がりにできるようになってきました。最近ではブログやSNSなどのCGMと呼ばれる口コミ系メディアも花盛りです。 Webアンケートも広く行われていますが、アンケートの回答は「出題側の仮説に影響される」という制約があり、“意外な発見”にはなかなか結び付きません。 一方、メールなどで寄せられる自由回答や意見・要望はそうした制約もなく、何かビジネスのヒントがありそうですが定量的な分析ができないという弱みがあります。せいぜい分析者が文章を読んで主観的に解釈するぐらいにしか活用していないのではないでしょうか? あ

  • テキスト・マイニング・ツール---CRMとの組み合わせ提案がカギ,販売実績は200本弱の段階

    テキスト・マイニング・ツール市場が注目を集め始めている。ツール単体のビジネス規模はまだ小さいが,CRM(カスタマ・リレーションシップ管理)などと組み合わせると高度な利用法を提案できるからだ。エンドユーザー部門にい込む強力な武器にもなる。 「テキスト・マイニング・ツールは,市場アナリストやマーケティング担当者,コールセンター管理者など,エンドユーザー部門の専門家からの関心が非常に高い。システム投資予算の決定権がエンドユーザー部門に移りつつある現在,テキスト・マイニング・ツールを手掛けることはエンドユーザー部門とのパイプ作りに重要だ。CRMの活用提案のカギになる」。日IBMデータマネジメント・ソリューション推進BIグループの西村弘之氏は同ツールの市場拡大を期待する。 市場参入会社が急増 テキスト・マイニング・ツールは簡単に言えば,大量のテキスト情報の中から頻度の高い語句を“仕分け”して分類

    テキスト・マイニング・ツール---CRMとの組み合わせ提案がカギ,販売実績は200本弱の段階
  • KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア

    概要と特長 KH Coderとは、計量テキスト分析またはテキストマイニングのための自由ソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。 プログラミング不要、マウス操作で格的な分析 安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介(スクリーンショット) スクリーンショット集 [旧ページ:言葉・文書・可視化・他] KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.02) 使い方を知るためのチュートリアル ヘルプ 質問&エラー報告用の掲示板 ※投稿にはGitHubへの登録が必要(無料)[旧掲示板] よくある質問(FAQ) 開発者が語る公式セミナー & サポート:㈱SCREEN A