2012年8月22日のブックマーク (6件)

  • nutch-default.xmlの設定 - Nutch調査録(mwSoft)

    nutch-default.xmlの設定 - Nutch調査録 概要 nutchの動きを設定するconf/nutch-default.xmlを読んだ際の個人的まとめ。説明を読んで「こういうことかな?」と思って書いているだけで未検証なので、話半分に「こういうのがあるんだなぁ」という程度に見て頂きたい。 ちなみに下記は素敵な日語訳ページ。 http://www.ubicast.com/tech/nutch/nutc-default-0.9.html @Author mwSoft @Date 2010/12/11 @Env Nutch1.2/Fedora14 ユーザエージェント関連 http.agent.name ユーザエージェントを設定する。デフォルトでは空になっているので、必ず設定しないといけない。身元が分かるユーザエージェントを設定するのがお行儀が良いと言われる。 http.agent.

    Sediment 2012/08/22
    nutch-default.xmlの設定 - Nutch調査録(mwSoft)
  • Solr, Python, MacBook Air in Shinagawa Seaside

    atmarkit.itmedia.co.jp PowerToysで変更できるとの記事があるが試してみてできなかったので インストール不要でキー配置の変更が可能な「Change Key」を使った ついでに「カタカナひらがな」キーもctrlに変更した 満足 git config --global user.email "hoge@gmail.com" git config --global user.name "hoge" cd ~/work/Git git init git status git add HelloWorld.py <- ファイルを指定して監視 git add . <- カレントディレクトリ以下全てのファイルを監視 git commit -m "first commit" git log vi .gitignore <- 追跡しないファイルを書いておく /tmp/ git a

    Solr, Python, MacBook Air in Shinagawa Seaside
    Sediment 2012/08/22
  • Home - NUTCH - Apache Software Foundation

    Welcome to the Apache Nutch Wiki Please contribute your knowledge about Nutch here! Or browse the open issues, open a new Jira ticket, or check the Nutch source code on git. Table of Contents What is Apache Nutch?Apache Nutch is a highly extensible and scalable open source web crawler software project. Stemming from Apache Lucene, the project comprises two codebases, namely: Nutch 1.x (ACTIVE): A

    Sediment 2012/08/22
    Nutch 英語 wiki
  • Apache Nutch freecode日本語情報ページ - OSDN

    Nutch は、非常にスケーラブルな Web 構築されて Apache Hadoop と Lucene Java のソフトウェアを検索します。主な特長ほかの Web クローラー、インデクサー、クロール管理ツールは、パーサーは HTMLPDF、ドキュメント、および他のいくつかのドキュメント形式およびドキュメント パーサー、カスタム スコアリング アルゴリズム、コンテンツのカスタム パーサー、プロトコル、および詳細などの追加機能をプラグインすることができます、拡張可能なアーキテクチャ。

    Apache Nutch freecode日本語情報ページ - OSDN
    Sediment 2012/08/22
  • Nutch: Nutchについて

    Nutchは、オープンソース・ウェブ検索エンジンを実装する初めての試みです。 ウェブ検索はインターネット・ナビゲーションのために必用な基的機能です。ところが現在では、ウェブ検索エンジンの数は減少しています。 今日の寡占状態は、すぐに、ほとんど全てのウェブ検索を提供している一つの会社の商業利用に独占されるかもしれません。 一社の独占は、多くのインターネットのユーザーにとって良くないことです。 Nutch は、商用ウェブ検索エンジンには無い透過性(公開性)をもたらすものです。 Nutch による検索結果は、充分に偏見が無いことがわかっており、安心して検索をまかせることができます(少なくとも、Nutsh のバイアスは、公共のためのものです)。 全ての既存の主な検索エンジンは、検索エンジン所有者の実装した公式によって順位が決められます。検索結果として与えられたページの順位付けの理由が説明されるわ

    Sediment 2012/08/22
  • Apache Nutch™

    Nutch is a highly extensible, highly scalable, matured, production-ready Web crawler which enables fine grained configuration and accomodates a wide variety of data acquisition tasks. Scalable Relying on Apache Hadoop™ data structures, Nutch is great for batch processing large data volumes but can also be tailored to smaller jobs. Pluggable Out of the box Nutch offer powerful plugins i.e., parsing

    Sediment 2012/08/22