タグ

*プログラミングに関するSuiJackDoのブックマーク (3)

  • tf*idf 法による特徴的単語の抜き出し - World Wide Walker

    tf*idf 法による特徴的単語の抜き出し Posted by yoosee on Web at 2005-02-25 23:42 JST1 Tf Idf Ranking特徴的単語の抜き出し方法。nterm := あるドキュメント内のある単語の出現回数 maxn := ドキュメント内で最も出現頻度が高かった単語の出現回数 tf = 0.5 + 0.5 * nterm / maxn idf = log2(ドキュメントの数/対象単語が含まれるドキュメントの数) + 1 log の底は任意に変えることで idf の重み付けを変更出来る と言う数字で評価する。つまり「あるドキュメント内での出現頻度が高い(tf)」単語のうち「他のドキュメントにはあまり出現し無いもの(idf)」を「そのドキュメントに特徴的な単語」として扱うという考え方らしい。 とりあえず kakasi -w で単純な単語分割したもの

    SuiJackDo
    SuiJackDo 2010/02/05
    「あるドキュメント内での出現頻度が高い(tf)」単語のうち「他のドキュメントにはあまり出現し無いもの(idf)」を「そのドキュメントに特徴的な単語」として扱うという考え方
  • ゆーすけべー日記: 日本のAV女優一覧を取得するPerlモジュール「Acme::JapaneseAvActress」をCodeReposに

    サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。 お礼に料理を作るとはいえ、サキの家には材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ

    ゆーすけべー日記: 日本のAV女優一覧を取得するPerlモジュール「Acme::JapaneseAvActress」をCodeReposに
  • ウノウラボ Unoh Labs: 正規表現の勉強法

    bokkoです。 テキストの整形処理を行う上で正規表現は非常に重要です。正規表現なしでテキストの整形処理をするくらいなら自分で正規表現ライブラリを書いてやるという人がいるのかどうかは知りませんが、実際、相当大規模なWebソフトウェアのプロジェクトならそっちの方が早いかもしれません。なんだか自分で書いてて何が言いたいのかわからないような文章になってしまいましたが、私が言いたいのは正規表現はそれくらい強力で、習得して使う価値があるということです。 ただ、正規表現にはじめて触れる場合、非常にとっつきにくく思う方もいると思います。私も最初、意味のわからない文字の羅列に圧倒されたような気がします。 このように最初の段階でとっつきづらく思ってしまうのは大抵慣れの問題なので、とりあえず、正規表現を使ったプログラムでも書いてみるのが一番の近道です。何かしらのテキストを整形するというのがいい題材ですが、私が

    SuiJackDo
    SuiJackDo 2007/09/15
    昔個人でPerlを少し触っていたときにかじったが十全に理解するにいたらず。何も見ずに正規表現でデータをハンドルできる方は無条件で尊敬。
  • 1