[B! java][Java] [4ページ] egghourのブックマーク

インデックス分割ツール IndexSplitter (3.0) | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

egghour 2010/06/11

search
java

リンク

Nutch と Solr の連携その1 〜 Nutch のインデックスを Solr からのぞいてみる〜 - Solr, Python, MacBook Air in Shinagawa Seaside

Nutch はクロールしたデータの管理に Lucene 形式のインデックスを使っています。このため Lucene を使って Nutch のインデックスにアクセスしたり、Solr を使って検索することができます。ちなみに3者の関係を整理するとこんな感じです。 Nutch : Webクローラ。内部データの管理に Lucene を使っている Lucene : 全文検索システムを実現するためのJavaのライブラリ Solr : Luceneを使って実装された全文検索システム Java のコーディングが得意な方は Lucene を使ってインデックスの中見ることができますが、そうじゃないボクのような人は Solr を使って見る方が楽かもしれません。ここではSolr から Nutch の Lucene 形式のインデックスをのぞいてみる方法について書いてみます。 Solrのインストールがまだな方は

egghour 2010/06/11

search
java

リンク

MultiLingualSupport - NUTCH - Apache Software Foundation

egghour 2010/06/11

search
java

リンク

https://mail-archives.apache.org/mod_mbox/lucene-nutch-dev/200606.mbox/%3Cc822c4ce0606070158s6c16abc7yea846a546e735cf4@mail.gmail.com%3E

egghour 2010/06/11

search
java

リンク

Runtime error - Meta Search

Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfa mfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

egghour 2010/06/10

リンク

チューニングのためのJava VM講座

ガベージコレクタの仕組みを理解するチューニングのためのJava VM講座（後編）　メモリ管理作業をプログラマに代わって行うガベージコレクションを理解することは、Javaのパフォーマンス確保に非常に重要だ実運用の障害対応時間比較に見る、ログ管理基盤の効果（2017/5/9）ログ基盤の構築方法や利用方法、実際の案件で使ったときの事例などを紹介する連載。今回は、実案件を事例とし、ログ管理基盤の有用性を、障害対応時間比較も交えて紹介 Chatwork、LINE、Netflixが進めるリアクティブシステムとは何か（2017/4/27）「リアクティブ」に関連する幾つかの用語について解説し、リアクティブシステムを実現するためのライブラリを紹介します Fluentd＋Elasticsearch＋Kibanaで作るログ基盤の概要と構築方法（2017/4/6）ログ基盤を実現するFluentd＋

egghour 2010/06/10

java
性能

リンク

企業で使われるHadoop

egghour 2010/06/05

リンク

コラム | オープンソースCMSならOpenCms

CMSプロジェクトの【RFP(提案依頼書)】作成では、プロジェクトの背景（なぜCMS化が必要か）、現在のウェブサイト、システムの構成・機能・問題点、データ移行の方法、CMS機能の要件といったポイントを盛り込みましょう。

egghour 2010/06/04

リンク

＠ＩＴ：オープンソース検索エンジン「Nutch」の実力

「Java FAQ（What's New）」の安藤幸央氏が、CoolなプログラミングのためのノウハウやTIPS、筆者の経験などを「Rundown」（駆け足の要点説明）でお届けします。（編集局）検索エンジンの台頭現在、インターネットを利用するユーザーにとっても、インターネットで仕事やプログラム開発を行っているユーザーにとっても検索エンジンはとても重要なものです。SEO（Search Engine Optimization）という業種も確立し、新規インターネットビジネスサイトを立ち上げる際や、既存サイトのアクセス数を増加させたい場合、SEOが重要な意味を持つようになってきています。つまりWebデザインだけでなく、Webサイト（ページ）がどのように検索エンジンとかかわってくるのか、SEO分析や、SEOに関するノウハウが重要視されます。確かに便利な検索エンジンの台頭は歓迎されることです。一方

egghour 2010/06/04

リンク

Overview (Hadoop 0.20.1 API)

egghour 2010/06/04

リンク

DistributedLucene - HADOOP2 - Apache Software Foundation

Distributed Lucene This work has now been superseded by the Katta project Katta project - http://www.sourceforge.net/projects/katta Doug Cutting's original proposal: http://www.mail-archive.com/general@lucene.apache.org/msg00338.html Also see ElasticSearch - open source, distributed, RESTful search engine built on-top of Lucene - http://www.elasticsearch.org Bailey project - http://www.sourceforge

egghour 2010/06/04

リンク

全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集

はじめまして。プロダクト&サービス事業部リーダーの久保です。今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。目次 Solrとは機能一覧実績/事例 Solrを使ったシステムの開発方法おすすめする方データ量/性能とハードウェアマルチコア構成様々な検索スケールアウト検索と更新 Solrを始めるための情報リスト全

egghour 2010/06/04

リンク

ClouderaがHadoop用の操作ツール，初級者にも扱いやすく

Hadoop導入支援パッケージなどを手がける米Clouderaは米国時間2009年10月1日，オープンソース分散処理プラットフォーム「Hadoop」用のGUI（グラフィカル・ユーザー・インタフェース）「Cloudera Desktop」を公開した。Webサイトで無償でダウンロードできる。JavaScriptライブラリ「mootools」を使って開発されており，使用にはClouderaが配布している最新のテスト版Hadoopが必要だ。 Cloudera Desktopを利用すると，Webブラウザ上のGUIでHadoop用クライアントのインストールやアップグレード，ファイアウオールの設定などができる。操作が分かりやすくなることで，例えばデータ格納を目的にHadoopクラスタを使う場合などに，Hadoopに慣れていない人でも無理なくデータ管理業務をこなせるようになるという。 Clouderaは，

egghour 2010/06/03

リンク

僕が Amazon Elastic MapReduce を使わない３つの理由 - (ﾟ∀ﾟ)o彡 sasata299's blog

2010年04月20日22:46 Hadoop 僕が Amazon Elastic MapReduce を使わない３つの理由【追記】この内容は古いです。最近はEMRを利用してます。つ 961万人の食卓を支えるデータ解析僕は日頃から Hadoop さんを使って（あと EC2 と S3 も使ってます！）色々ごにょごにょすることが多いんですが、EC2 上で Ruby でスクリプト書いて使ってるよーと言うとよく言われるのが、「何で Amazon Elastic MapReduce 使わないの？」という質問です。今までこれに個別に答えてたりしたんですが、めんどくさいので一度ここにまとめておきます。以前、Elastic MapReduce を実際に試してみたんですが、そのとき感じたメリット・デメリットはこんな感じです。今はそうじゃないよ！とかあったらごめんなさい＞＜ ★ メリット・Hado

egghour 2010/06/03

リンク

Cloudera を使って CentOS に Hadoop on EC2 な環境を整える第一回 - (ﾟ∀ﾟ)o彡 sasata299's blog

2009年11月15日00:03 Hadoop Cloudera を使って CentOS に Hadoop on EC2 な環境を整える第一回 Hadoop のことをもっと知るために、Cloudera を使って Hadoop 環境を整えてみようと思います。Cloudera のインストールガイドを参考に進めてみます。OS は CentOS 5.2 です。 Cloudera's Distribution for Hadoop (CDH) まず、yum のリポジトリに cloudera-stable.repos と cloudera-testing.repos を追加します。これで yum から Hadoop のインストールが出来るようになります。便利ですね〜。ちなみに、cloudera-stable の方は Hadoop-0.18 が、cloudera-testing の方は Hadoo

egghour 2010/06/03

リンク

Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。例えば、今まで1台でやっていた、あるログ集計処理

egghour 2010/06/03

リンク

複数マシンへHadoopをインストールする

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

egghour 2010/06/01

リンク

アマゾン、ウィザードだけで使えるHadoopサービス開始－＠IT

2009/04/02 米アマゾンの子会社、Amazon Web Services（AWS）は4月2日、多数のOSインスタンスを起動して大規模分散処理を行える「Amazon Elastic MapReduce」のベータサービスを開始した。 Amazon Elastic MapReduceは、オープンソースの分散処理フレームワークApache Hadoop 0.18.3を利用したサービスで、Webブラウザベースの管理コンソールやコマンドラインツール、APIを使ってジョブを投入することで、大量データの解析や計算量の多い科学計算、統計処理が可能。大量のログ処理や機械学習、金融計算、データマイニング、Webサイトのインデクシング処理などに使えるという。ジョブを処理するノードは、従来からAWSが提供しているAmazon EC2で稼働し、データの入出力にはAmazon S3が使える。データの入力にはイ

egghour 2010/05/31

リンク

こっちは本物のMapReduceだ！グーグルがAppEngine-MapReduceをオープンソースで開発中

こっちは本物のMapReduceだ！グーグルがAppEngine-MapReduceをオープンソースで開発中グーグルはGoogle App Engine上でMapReduce処理を実現するオープンソースを開発中だと、先日行われたイベントGoogle I/Oで明らかにしています。プロジェクトのホームページもGoogle Code上に「appengine-mapreduce - Project Hosting on Google Code」として公開されています。 Reduce処理やJava版はこれから 1つ前の記事「グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作」では、グーグルがSQLライクな命令を用いて大規模データ処理のサービスを提供することをお伝えしました。記事でも書いたとおり、これは内部でMapReduceを使っているかど