タグ

Programmingとtextminingに関するjjzakのブックマーク (3)

  • Perlで入門テキストマイニング » SlideShare (share powerpoint...

    2. テキストマイニング(1) 評判情報。ポジティブ、ネガティブ • プロフィール。ブロガーの性別、年齢、地域 • そのページに関連した広告とか。 • 関連語。 • もしかして○○? • クラスタリング。グルーピング。 •

    Perlで入門テキストマイニング » SlideShare (share powerpoint...
  • JAVAでデータマイング!

    JavaDMのブログ、JAVAでデータマイング!です。『情報工学の難しいそうなアルゴリズムをJAVAで実装して、ひたすらその結果を公開する』ブログになる予定。JAVAでデータマイング!『情報工学の難しいそうなアルゴリズムをJAVAで実装して、ひたすらその結果を公開する』ブログになる予定。エンジニア/学び・教育 NaiveBayes 最近仕事で spam 判別器なんての作成していたんですが、この spam の分類器を作成していて思ったことがあります。 自分も割とそうなのですが、いわゆる精度を上げるために、アルゴリズムに傾倒してしまうようなことが普通にあって、 ベイズがベイジアンネットになり、SVMになり、SVM+カーネルロジスティックのBoostingになり・・・って具合でどんどん難しいアカデミックなところを攻めてしまうわけですが、 しかしながら実際の所、純粋に精度を上げるためには、

  • 『MPJoin を使った類似データ抽出 ―アルゴリズムシリーズ 1―』

    Hattori です。以前書いた記事の冒頭 で、”今度はシリーズで何かエントリを書きたい ! ”と軽いノリで一文を表記しておいたら、ホントにやることになりました。 弊社のエンジニア組織の特徴のひとつに、手を上げる・声を上げると、『じゃ、やってよ。』というノリで返ってくるという事が挙げられるのですが、今回もその例に漏れなったわけですね・・・。シクシク・・・。 というわけで、何を書こうかなぁって話しなんですが・・・。私の場合アルゴリズム系の話しかできそうにないので、毎回ポツポツとマイナーで極一部の人にしかウケないテーマを紹介して行こうと思います。 で、初回の今回は SimilarityJoin 関連のアルゴリズムで "MPJoin" というやつを紹介したいと思います。 ■ Similarity Join とは何ぞや? まず最初に SimilarityJoin [1] の定義なんですが、ざっくり

    『MPJoin を使った類似データ抽出 ―アルゴリズムシリーズ 1―』
  • 1