タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

nutchに関するshrkwのブックマーク (7)

  • Apache プロジェクトのクローラ Nutch を軽く試してみた - Solr, Python, MacBook Air in Shinagawa Seaside

    Nutch は Apache プロジェクトで開発されているクローラ(crawler)です。クローラは、起点として指定されたURLからリンクをたどりながらHTMLをデータベース化するソフトウェアです。 GoogleYahoo! 等の検索ポータルが内部で使用していることで知られています。スパイダー(Spider)、ボット(bot)等といわれることもあります。 Nutch は 2009/3/23 についにバージョン 1.0 がリリースされました。 Nutch のインストールには JAVA 及び Tomcat が必要です。まだインストールしていない場合には先にインストールしておきます。しばらくアップデートしていない場合にアップデートしておいた方がよいでしょう。 以下を参考にしてください。 Linux で root 権限なしでも最新の JDK をインストールする1つのやりかた Linux

    shrkw
    shrkw 2009/09/16
  • Kazuhiro's Weblog: 「Nutch」ですいすい情報収集 (クローリング機能を試す)

    「Nutch」でウェブサイトをクローリングする方法を説明します。 クローリングとは、簡単にいえば「ウェブサイトの情報を集めるてくれる仕組み」でしょうか。 (注) nutchを利用するには、unixがお勧めです。 私は、「CentOS 4」をOSとし用いました。 最初はwindowsでがんばろうと試行錯誤しましたが 多くの無駄な時間をつかってしまうという結果に終わりました(TT)。 「Nutch」利用したクローリングの方法には、 (A)ある特定のネットワーク(intranet)をクローリングする方法 (B)ウェブ全体(whole-web)をクローリングする方法 の2つがあります。 今回は、このblogサイト「http://kazuhiro.ty.land.to/blog/」を起点にして (A)の方法でクローリングする方法を紹介します。 (1)「Nutch」をインストールする 「Nutch」の

    shrkw
    shrkw 2009/09/16
  • [Solr] Nutchでサイトクロール

    やってみた。 Nutchはウェブスパイダーとしてのクロール機能を提供している。内部に分散ファイルシステムたるHadoopを持っていのだが、今回はこれは使わない方法(のようだ)。 - - - - 1. Nutchを<a href="http://hudson.zones.apache.org/hudson/job/Nutch-trunk/">ダウンロード</a>し、解凍する。 tar xzf apache-nutch-1.0.tar.gz 2. Solrの設定を行う Nutchの中にはschema.xmlなどSolrを連携して使うためのサンプルの設定ファイルが含まれています。 a. schema.xmlの配置 apache-nutch-1.0/conf to directory apache-solr-1.3.0/example/solr/conf b. “content”フィールドの設定変

    shrkw
    shrkw 2009/09/16
  • Nutch - PukiWiki

    オープンソースな検索エンジン Nutch のインストールから設定まで 家サイト+α † 家サイトはこちら http://www.nutch.org/ 開発者向けページはこちら http://www.nutch.org/docs/en/developers.html このページの前半戦の参考ページはこちら http://www.nutch.org/docs/en/tutorial.html うちのサーバーで動いてるサンプル http://nutch.happy-camper.st/ 6時間おきに新しいページを求めてネット上を徘徊して回ります。 2004/02/18 1日1回に変更。 1回のデータ更新で、3時間ほど費やされたら、1日の半分は巡回してることになる。 結構データもたまってるみたいだしね。 韓国人のLEEさんが立ち上げている、Nutchサポートサイト http://www.nut

    shrkw
    shrkw 2009/09/16
  • Nutch & Solr Integration Tutorial | Lucidworks

    Using Solr will be used as the only source for serving search results so you can decouple your search application from Nutch and still use Nutch where it is at its best: crawling and extracting the content. There is an updated version about Nutch Solr integration available at https://lucidworks.com//2010/09/10/refresh-using-nutch-with-solr/ The last time I wrote about integrating Apache Nutch with

    Nutch & Solr Integration Tutorial | Lucidworks
    shrkw
    shrkw 2009/09/16
  • Nutch と Solr の連携 その1 〜 Nutch のインデックスを Solr からのぞいてみる 〜 - Solr, Python, MacBook Air in Shinagawa Seaside

    Nutch はクロールしたデータの管理に Lucene 形式 のインデックスを使っています。 このため Lucene を使って Nutch のインデックスにアクセスしたり、Solr を使って検索することができます。 ちなみに3者の関係を整理するとこんな感じです。 Nutch : Webクローラ。内部データの管理に Lucene を使っている Lucene : 全文検索システムを実現するためのJavaのライブラリ Solr : Luceneを使って実装された全文検索システム Java のコーディングが得意な方は Lucene を使ってインデックスの中見ることができますが、そうじゃないボクのような人は Solr を使って見る方が楽かもしれません。 ここではSolr から Nutch の Lucene 形式のインデックスをのぞいてみる方法について書いてみます。 Solrのインストールがまだな方は

    shrkw
    shrkw 2009/09/16
  • コラム | オープンソースCMSならOpenCms

    CMSプロジェクトの【RFP(提案依頼書)】作成では、プロジェクトの背景(なぜCMS化が必要か)、現在のウェブサイト、システムの構成・機能・問題点、データ移行の方法、CMS機能の要件といったポイントを盛り込みましょう。

    shrkw
    shrkw 2009/09/16
  • 1