タグ

2011年6月4日のブックマーク (2件)

  • 第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記

    というわけで参加してきました。会場は数理システムさんです。第3回 さくさくテキストマイニング勉強会 : ATND 入門セッション(AntiBayesian)第三回さくさくテキストマイニング勉強会 入門セッション View more presentations from AntiBayesian 単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch ) TF*IDFの話 えっ私のテキストマイニング力低すぎ!? 例:大量のアンケートの自由回答文から重要な単語を抜き出す 例:エビオス嬢についての文章 TF*IDFとは TF(単語の頻度) * IDF(単語が含まれる文書割合の逆数(の対数)) 直感的ば解釈:ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している なんで対数取るんだっけ・・・ IDFの影響が大きすぎるので小さくしたい→対数

    fcicq
    fcicq 2011/06/04
    the tutorial is so handy :)
  • Radix Sort Revisited

    Pierre Terdiman Last revision: 04.01.2000 In every decent programmer’s toolbox lies a strange weapon called a Radix Sort. Where does it come from ? Who invented it ? I don’t know. As far as I can remember it was there, fast, easy, effective. Really effective. So unbelievably useful I’ve never really understood why people would want to use something else. The reasons ? Most of the time, they tell m