タグ

2011年2月16日のブックマーク (5件)

  • 『MPJoin を使った類似データ抽出 ―アルゴリズムシリーズ 1―』

    Hattori です。以前書いた記事の冒頭 で、”今度はシリーズで何かエントリを書きたい ! ”と軽いノリで一文を表記しておいたら、ホントにやることになりました。 弊社のエンジニア組織の特徴のひとつに、手を上げる・声を上げると、『じゃ、やってよ。』というノリで返ってくるという事が挙げられるのですが、今回もその例に漏れなったわけですね・・・。シクシク・・・。 というわけで、何を書こうかなぁって話しなんですが・・・。私の場合アルゴリズム系の話しかできそうにないので、毎回ポツポツとマイナーで極一部の人にしかウケないテーマを紹介して行こうと思います。 で、初回の今回は SimilarityJoin 関連のアルゴリズムで "MPJoin" というやつを紹介したいと思います。 ■ Similarity Join とは何ぞや? まず最初に SimilarityJoin [1] の定義なんですが、ざっくり

    『MPJoin を使った類似データ抽出 ―アルゴリズムシリーズ 1―』
    TohgorohMatsui
    TohgorohMatsui 2011/02/16
    MPJoin を使った類似データ抽出 | サイバーエージェント 公式エンジニアブログ
  • Kaggle: Your Machine Learning and Data Science Community

    Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

    TohgorohMatsui
    TohgorohMatsui 2011/02/16
    データ・マイニング・コンテスト・プラットフォーム Kaggle
  • 人工言語で自然言語を解析する楽しみ――『入門 自然言語処理』:晴読雨読@エンジニアライフ:エンジニアライフ

    入門 自然言語処理 Steven Bird、Ewan Klein、Edward Loper (著) 萩原正人、中山敬広、水野貴明 (翻訳) オライリージャパン 2010年11月 ISBN-10: 4873114705 ISBN-13: 978-4873114705 3990円(税込) ■自然言語処理とは 「自然言語処理」(NLP:Natural Language Processing)という言葉をご存じだろうか。自然言語処理は、コンピュータの用途の1つとして、古くから研究されてきたジャンルである。 言葉を分割して考えてみよう。「言語」は自明であるとして、「自然言語」とは何か。 「自然言語」とは、人間が日常のコミュニケーションを取るために使う「言葉」である。単に「言語」といえば、一般的には英語や日語など自然言語のことを指すことがほとんどだろう。まあ、エンジニアが「言語」という場合はRuby

    人工言語で自然言語を解析する楽しみ――『入門 自然言語処理』:晴読雨読@エンジニアライフ:エンジニアライフ
    TohgorohMatsui
    TohgorohMatsui 2011/02/16
    人工言語で自然言語を解析する楽しみ――『入門 自然言語処理』 | 晴読雨読@エンジニアライフ
  • 過学習を避けるにはどうすればいいか? - nokunoの日記

    この前のエントリに関連してQuoraで質問したところ、非常に質の高い回答が集まったので翻訳したいと思います。 オーバーフィットについて考える - nokunoの日記How can I avoid overfitting? - Quora 回答1まず自分のデータをランダムに訓練集合とテスト集合に分割します。テスト集合は評価のためだけに使い、訓練に使ってはいけません。もし訓練セットに対する性能が向上しても、テスト集合に対してはそうでない場合は過学習を起こしています。そのためそうなる前に訓練を止める必要があります。 回答2過学習は信号に対するノイズに誤って適応することで引き起こされます。線形回帰の文脈なら、AIC(赤池情報量規準)をチェックして下さい。それは適用するのが非常に簡単なテストです。モデルの推定に最尤推定を用いるなら、BIC(ベイズ情報量規準)が好まれます。それはShwartz基準とも

    TohgorohMatsui
    TohgorohMatsui 2011/02/16
    過学習を避けるにはどうすればいいか? | nokunoの日記
  • Latent Dirichlet Allocations の Python 実装 - 木曜不足

    LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple音楽apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。 結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

    Latent Dirichlet Allocations の Python 実装 - 木曜不足
    TohgorohMatsui
    TohgorohMatsui 2011/02/16
    Latent Dirichlet Allocations in Python | Mi manca qualche giovedi`?