タグ

2012年2月18日のブックマーク (3件)

  • Apache ManifoldCF -Webサーバのクロール- 株式会社ロンウイット

    今回はApache ManifoldCFのWebサーバのクロールをご説明します。 ManifoldCFの管理画面から設定を行い、実際にクロールを実行して動作を確認します。 Webサーバ接続によるクロールの特長 ManifoldCFでは、一般的なWebクローラの機能を持っています。HTMLRSSフィードからリンクを抽出して、HTMLだけでなくリンク先にあるドキュメントをクロールすることができます。そして、そのドキュメントからコンテンツを抽出して、Solrでインデクシングすることができます。 企業内のWebサーバで情報共有している社内ポータルの検索や社内管理文書を検索する、といったケースにManifoldCFを使うことができます。Solrと連携してWebのドキュメントの検索を行います。 準備 「Apache ManifoldCF -セットアップ-」に記載されているセットアップ作業を実施します

    Apache ManifoldCF -Webサーバのクロール- 株式会社ロンウイット
  • Think Stats - Chapter 1 - resolution

    自分の手で数値を解析できるようになりたいとずっと思ってた。でも行動を起こしてなかった。誰もが最初は初心者だけれども、いつまで経っても初心者なのは恥ずかしい。大切なのはいつ初心者じゃなくなるか。大学が文系・理系だの、忙しいだの、そんなのただの言い訳だから。やらないことはいつまで経ってもできない。 図書館や書店に行けば面白そうながたくさんある。iTunes Uを見れば楽しそうなものがいっぱいだ。ネットは言わずもがな。もう既にコンテンツは溢れてるんだと思う。もう無料だとか量が多いとか言ってありがたがるのは止めよう。(実際のところ無料なのはありがたいけど)大切なのは自分が何に集中して取り組むかということだ。そんなわけで、このに取り組むことにした。 http://greenteapress.com/thinkstats/ 実際の統計情報をダウンロードして、pythonを使って計算しながら統計を学

    Think Stats - Chapter 1 - resolution
  • Slope One Predictors in Python - NO!と言えるようになりたい

    Slope One Predictors for Online Rating-Based Collaborative Filteringを読んだメモ1 (http://d.hatena.ne.jp/ytakano/20081002/1222970856)の続きで,D. Lemire and A. Maclachlan, "Slope One Predictors for Online Rating-Based Collaborative Filtering", In SIAM Data Mining (SDM'05), Newport Beach, California, April 21-23, 2005.のメモです slope oneは英語版のWikipediaにも多少載っていますが,英語が読めるなら,元の論文を参照した方がよいでしょう.(http://en.wikipedia.org

    Slope One Predictors in Python - NO!と言えるようになりたい