タグ

データマイニングに関するkunimiyaのブックマーク (3)

  • EDGE Datasetsを用いたテキストマイニング

    EDGE Datasetsを用いたテキストマイニング ClipGetter、TTM、Wekaの使い方 はじめに EDGE Datasetsの取得 データの整形、ClipGetterの使い方 テキストマイニングソフト・TTMの使い方 キーワード: EDGE Datasets テキストマイニング TTM ClipGetter weka この文書を自由に改変、転載することを許可します。連絡不要 ●はじめに EDGE Datasetsとは?(livedoorの公式説明より引用) 学術研究目的でまとまったデータを必要とされている方のために、研究用データセットを用意しました。 livedoor クリップで公開設定になっているユーザデータの URL, タグ, 作成時刻などを csv ファイルにまとめたものを用意しています。 EDGE Datasetsを使う意義とは? まず、クローリン

  • 計れないものを計る! | | プログラマ2.0日報 | あすなろBLOG

    「XOR」行の合計 3 が、Aさんの見た映画とBさんの見た映画の「差」であるハミング距離になるわけです(Tanimoto係数だと一致すればするほど値が大きくなりますが、ハミング距離だと一致すれば最小の0になります)。 その他にも、いろいろな「(集合の違いなど)定性的とも考えられる「状態」を、違いを表す数値にする」さまざまな尺度があります。まあ、ですから、ここらへん「どれを使うのか」というのは 場合によりけり... というものです。こういう尺度を使うと、 差の値が2倍だから、中身の違いも「2倍違う」 なんて思うと大間違いなのが一般です。単に大小関係しか信用できないケースがほとんどです。ここらへん大きく見るといわゆる「ノンパラメトリック検定」と呼ばれる統計手法で、 母集団の分布に関する一切の仮定がない検定手法 の手法の一つなんですね。勿論いわゆる「連続な値を計れる数値」でやる検定で、しかも測定

  • はてなブログ | 無料ブログを作成しよう

    牛乳とドーナツ 冷蔵庫で冷やされパキパキに固まった砂糖が鱗みたいにまとわりついているドーナツを取り出すと、マグカップに牛乳を注ぎ、少し時間を置く。 読みかけたのことか、はたまた別のことか、何かを考えながら惰性でドーナツをべてしまい、それを牛乳で流し込むのを忘れた…

    はてなブログ | 無料ブログを作成しよう
    kunimiya
    kunimiya 2008/11/17
    データマイニングと統計学の違い
  • 1