タグ

ブックマーク / komachi.hatenablog.com (2)

  • 自然言語処理の定番の教科書まとめ - 武蔵野日記

    自然言語処理や機械学習でいくつか新しい教科書的なものが登場してきたので、まとめてみようと思う。 教科書について。Introduction to Information Retrieval Introduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メディア: ハードカバー購入: 7人 クリック: 115回この商品を含むブログ (37件) を見るの翻訳が進んでいる(あとこれを研究室の輪読に使っていたりする)という話を聞いたりするのだが、やっぱり知識として知っておくべきというのと、そこから超えていくというのは違うものであって、どれだけ研究が進んでも、分

    自然言語処理の定番の教科書まとめ - 武蔵野日記
  • Inside はてなブックマーク全文検索: TokyoCabinet と TokyoTyrant で高速化・並列化 - 武蔵野日記

    遅ればせながら kzk くんの はてなブックマーク全文検索機能の裏側をメモ。 すごくいいコラボレーションだなと思いつつ、ふむふむと思ったのは以下の部分。 当初はそのままSedueをインストールすれば終わるんじゃねぐらいに思っていたのですが、そう甘くも行きませんでした。 一番問題となったのは登録時のパフォーマンス。Sedueでは今まで適当に文を1文章1ファイルで格納していたのですが、バッチで全文章を登録するとなるとこれでは遅すぎたので、TokyoCabinetを使用して文を保存する事にしました。 APIが簡単 4G以上のデータも扱える スレッドセーフ mixiでの高負荷運用実績が有る な辺りが決め手でした。これで劇的に速度が改善し、色々と作業が進め安くなりました。 (中略) 開発方法については、Sedueではランキング関数の部分はプラグイン(動的ライブラリ)の形になっていて、サーバーを走

    Inside はてなブックマーク全文検索: TokyoCabinet と TokyoTyrant で高速化・並列化 - 武蔵野日記
  • 1