タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

tfidfに関するmicknのブックマーク (2)

  • 12. 全文検索エンジン Solr | ウェブアーカイブのしくみ|国立国会図書館インターネット資料収集保存事業

    「Apache Solr」(以下Solr)は、Javaで記述された高速検索サーバの1つです。 http://lucene.apache.org/solr/ 特徴 CNET Networks社により"Solar"として開発された後、2006年1月にApacheコミュニティに寄贈され、"Solr"と名前を変えました。2007年1月よりApache Lucene のサブプロジェクトとなっています。 以下のような特徴が挙げられます。(稿はSolr3.xを基に記述しています。) 高い全文検索能力 負荷の高いWeb環境に最適化 XML、JSONやHTTP等のオープンスタンダード技術を基に開発 高速なインデキシングが可能 XMLによる設定や定義が可能 ANDやOR、NOT等の演算子及びワイルドカードが利用可能 全文検索に加えて、範囲指定や重み付け等の検索が可能 ウェブベースのインタフェースがあり、ブラ

  • ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう

    ハッカドールというニッチ向けの自動ニュースレコメンドアプリの出来がなかなかおもしろく、日曜データサイエンティストとしていろいろ刺激されたので、久々に単語の重要度とかを表現できるTF-IDFのプログラムを作ってみました。 刺激を受けたスライドはこちら 捗るリコメンドシステムの裏事情(ハッカドール) from Yusuke Enomoto www.slideshare.net そして、実際に作ってみたやつ。 問題と解決 ・問題1 このプレゼンで触れられているようにニッチ界隈の単語やネットスラングなどは、日々増えたり減ったりしていて、とてもじゃないが自分では管理しきれない ・解決1 IPADIC-NEOLOGDというプロジェクトでGITで常に最新の単語にアップデートされ続けているものを発見。ヒューリスティックに単語、新語などを追加しているようです。自分一人での単語追加は膨大な手間がかかるもの。I

    ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう
    mickn
    mickn 2015/05/10
  • 1