一定期間更新がないため広告を表示しています
Nutch はクロールしたデータの管理に Lucene 形式 のインデックスを使っています。 このため Lucene を使って Nutch のインデックスにアクセスしたり、Solr を使って検索することができます。 ちなみに3者の関係を整理するとこんな感じです。 Nutch : Webクローラ。内部データの管理に Lucene を使っている Lucene : 全文検索システムを実現するためのJavaのライブラリ Solr : Luceneを使って実装された全文検索システム Java のコーディングが得意な方は Lucene を使ってインデックスの中見ることができますが、そうじゃないボクのような人は Solr を使って見る方が楽かもしれません。 ここではSolr から Nutch の Lucene 形式のインデックスをのぞいてみる方法について書いてみます。 Solrのインストールがまだな方は
Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL
ガベージコレクタの仕組みを理解する チューニングのためのJava VM講座(後編) メモリ管理作業をプログラマに代わって行うガベージコレクションを理解することは、Javaのパフォーマンス確保に非常に重要だ 実運用の障害対応時間比較に見る、ログ管理基盤の効果 (2017/5/9) ログ基盤の構築方法や利用方法、実際の案件で使ったときの事例などを紹介する連載。今回は、実案件を事例とし、ログ管理基盤の有用性を、障害対応時間比較も交えて紹介 Chatwork、LINE、Netflixが進めるリアクティブシステムとは何か (2017/4/27) 「リアクティブ」に関連する幾つかの用語について解説し、リアクティブシステムを実現するためのライブラリを紹介します Fluentd+Elasticsearch+Kibanaで作るログ基盤の概要と構築方法 (2017/4/6) ログ基盤を実現するFluentd+
Copyright © 2004-2024 Impress Corporation. An Impress Group Company. All rights reserved.
「Java FAQ(What's New)」の安藤幸央氏が、CoolなプログラミングのためのノウハウやTIPS、筆者の経験などを「Rundown」(駆け足の要点説明)でお届けします。(編集局) 検索エンジンの台頭 現在、インターネットを利用するユーザーにとっても、インターネットで仕事やプログラム開発を行っているユーザーにとっても検索エンジンはとても重要なものです。SEO(Search Engine Optimization)という業種も確立し、新規インターネットビジネスサイトを立ち上げる際や、既存サイトのアクセス数を増加させたい場合、SEOが重要な意味を持つようになってきています。つまりWebデザインだけでなく、Webサイト(ページ)がどのように検索エンジンとかかわってくるのか、SEO分析や、SEOに関するノウハウが重要視されます。 確かに便利な検索エンジンの台頭は歓迎されることです。一方
Distributed Lucene This work has now been superseded by the Katta project Katta project - http://www.sourceforge.net/projects/katta Doug Cutting's original proposal: http://www.mail-archive.com/general@lucene.apache.org/msg00338.html Also see ElasticSearch - open source, distributed, RESTful search engine built on-top of Lucene - http://www.elasticsearch.org Bailey project - http://www.sourceforge
はじめまして。 プロダクト&サービス事業部 リーダーの久保です。 今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。 当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。 今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。 本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。 目次 Solrとは 機能一覧 実績/事例 Solrを使ったシステムの開発方法 おすすめする方 データ量/性能とハードウェア マルチコア構成 様々な検索 スケールアウト 検索と更新 Solrを始めるための情報リスト 全
Hadoop導入支援パッケージなどを手がける米Clouderaは米国時間2009年10月1日,オープンソース分散処理プラットフォーム「Hadoop」用のGUI(グラフィカル・ユーザー・インタフェース)「Cloudera Desktop」を公開した。Webサイトで無償でダウンロードできる。JavaScriptライブラリ「mootools」を使って開発されており,使用にはClouderaが配布している最新のテスト版Hadoopが必要だ。 Cloudera Desktopを利用すると,Webブラウザ上のGUIでHadoop用クライアントのインストールやアップグレード,ファイアウオールの設定などができる。操作が分かりやすくなることで,例えばデータ格納を目的にHadoopクラスタを使う場合などに,Hadoopに慣れていない人でも無理なくデータ管理業務をこなせるようになるという。 Clouderaは,
2010年04月20日22:46 Hadoop 僕が Amazon Elastic MapReduce を使わない3つの理由 【追記】 この内容は古いです。最近はEMRを利用してます。つ 961万人の食卓を支えるデータ解析 僕は日頃から Hadoop さんを使って(あと EC2 と S3 も使ってます!)色々ごにょごにょすることが多いんですが、EC2 上で Ruby でスクリプト書いて使ってるよーと言うとよく言われるのが、 「何で Amazon Elastic MapReduce 使わないの?」 という質問です。今までこれに個別に答えてたりしたんですが、めんどくさいので一度ここにまとめておきます。以前、Elastic MapReduce を実際に試してみたんですが、そのとき感じたメリット・デメリットはこんな感じです。今はそうじゃないよ!とかあったらごめんなさい>< ★ メリット ・Hado
2009年11月15日00:03 Hadoop Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第一回 Hadoop のことをもっと知るために、Cloudera を使って Hadoop 環境を整えてみようと思います。Cloudera のインストールガイド を参考に進めてみます。OS は CentOS 5.2 です。 Cloudera's Distribution for Hadoop (CDH) まず、yum のリポジトリに cloudera-stable.repos と cloudera-testing.repos を追加します。これで yum から Hadoop のインストールが出来るようになります。便利ですね〜。 ちなみに、cloudera-stable の方は Hadoop-0.18 が、cloudera-testing の方は Hadoo
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理
2009/04/02 米アマゾンの子会社、Amazon Web Services(AWS)は4月2日、多数のOSインスタンスを起動して大規模分散処理を行える「Amazon Elastic MapReduce」のベータサービスを開始した。 Amazon Elastic MapReduceは、オープンソースの分散処理フレームワークApache Hadoop 0.18.3を利用したサービスで、Webブラウザベースの管理コンソールやコマンドラインツール、APIを使ってジョブを投入することで、大量データの解析や計算量の多い科学計算、統計処理が可能。大量のログ処理や機械学習、金融計算、データマイニング、Webサイトのインデクシング処理などに使えるという。 ジョブを処理するノードは、従来からAWSが提供しているAmazon EC2で稼働し、データの入出力にはAmazon S3が使える。データの入力にはイ
こっちは本物のMapReduceだ! グーグルがAppEngine-MapReduceをオープンソースで開発中 グーグルはGoogle App Engine上でMapReduce処理を実現するオープンソースを開発中だと、先日行われたイベントGoogle I/Oで明らかにしています。プロジェクトのホームページもGoogle Code上に「appengine-mapreduce - Project Hosting on Google Code」として公開されています。 Reduce処理やJava版はこれから 1つ前の記事「グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作」では、グーグルがSQLライクな命令を用いて大規模データ処理のサービスを提供することをお伝えしました。 記事でも書いたとおり、これは内部でMapReduceを使っているかど
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く