タグ

Nutchに関するnijikotのブックマーク (3)

  • TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る

    大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング(Doug Cutting)さんが「Cloud Computing World Tokyo 2011」&「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。 満員の客席。 皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。 まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕

    TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る
  • @IT:オープンソース検索エンジン「Nutch」の実力

    Java FAQ(What's New)」の安藤幸央氏が、CoolなプログラミングのためのノウハウやTIPS、筆者の経験などを「Rundown」(駆け足の要点説明)でお届けします。(編集局) 検索エンジンの台頭 現在、インターネットを利用するユーザーにとっても、インターネットで仕事やプログラム開発を行っているユーザーにとっても検索エンジンはとても重要なものです。SEO(Search Engine Optimization)という業種も確立し、新規インターネットビジネスサイトを立ち上げる際や、既存サイトのアクセス数を増加させたい場合、SEOが重要な意味を持つようになってきています。つまりWebデザインだけでなく、Webサイト(ページ)がどのように検索エンジンとかかわってくるのか、SEO分析や、SEOに関するノウハウが重要視されます。 確かに便利な検索エンジンの台頭は歓迎されることです。一方

    @IT:オープンソース検索エンジン「Nutch」の実力
  • Apache Nutch™

    Nutch is a highly extensible, highly scalable, matured, production-ready Web crawler which enables fine grained configuration and accomodates a wide variety of data acquisition tasks. Scalable Relying on Apache Hadoop™ data structures, Nutch is great for batch processing large data volumes but can also be tailored to smaller jobs. Pluggable Out of the box Nutch offer powerful plugins i.e., parsing

  • 1