タグ

ブックマーク / catindog.hatenablog.com (2)

  • ウィキペディア日本語版 tf-idfのidf辞書の公開 - にほんごのれんしゅう

    nora(野良)-idf-dic モチベーション LevelDB(kvs)を利用した省メモリ設計で、すべてのWikipediaのコンテンツコンテンツを取得して処理したい XGBoostやElasticNetなど他のアルゴリズムでの前処理にを楽にしたい JSONスキーマなので、Python以外の他のスクリプト言語でも利用可能にしたい ダウンロードリンク Dropboxにアップロードしております。 www.dropbox.com フォーマット idfはjsonのdict型(ハッシュマップとも言います)です。 idf = { term1: weight1, term2:weight2, ... } このようなフォーマットになっており、単語とidfの重みがペアになって格納されています。 式の説明 tf-idfはヒューリスティックなものなので、そもそも明確なんてないんですが、一番、わたしとわたしの周

    ウィキペディア日本語版 tf-idfのidf辞書の公開 - にほんごのれんしゅう
    overlast
    overlast 2017/02/16
  • ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう

    ハッカドールというニッチ向けの自動ニュースレコメンドアプリの出来がなかなかおもしろく、日曜データサイエンティストとしていろいろ刺激されたので、久々に単語の重要度とかを表現できるTF-IDFのプログラムを作ってみました。 刺激を受けたスライドはこちら 捗るリコメンドシステムの裏事情(ハッカドール) from Yusuke Enomoto www.slideshare.net そして、実際に作ってみたやつ。 問題と解決 ・問題1 このプレゼンで触れられているようにニッチ界隈の単語やネットスラングなどは、日々増えたり減ったりしていて、とてもじゃないが自分では管理しきれない ・解決1 IPADIC-NEOLOGDというプロジェクトでGITで常に最新の単語にアップデートされ続けているものを発見。ヒューリスティックに単語、新語などを追加しているようです。自分一人での単語追加は膨大な手間がかかるもの。I

    ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう
  • 1