[B! Hadoop] solitary_shellのブックマーク

平成２１年度産学連携ソフトウェア工学実践事業（高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンターの高信頼化に向けた実証事業））事業成果報告書

solitary_shell 2010/09/29

Hadoop

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

solitary_shell 2010/09/29

Hadoop

リンク

Yahoo! Distribution of Hadoop Security

Hadoop Related Downloads Oozie – Yahoo!'s workflow engine for Hadoop Download the source code of Oozie, Yahoo!'s workflow engine for Hadoop: Apache Hadoop Sandbox Download the sandbox version of Apache Hadoop with security and Pig. The sandbox version contains a VMWare(TM) based virtual machine with a preinstalled Hadoop cluster, enabling easy setup and experimentation. Notice Yahoo! does not offe

solitary_shell 2009/06/11

リンク

Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。例えば、今まで1台でやっていた、あるログ集計処理

solitary_shell 2009/03/04

リンク

Hadoop＋Hive検証環境を構築してみる

Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。

solitary_shell 2009/02/27

Hadoop

リンク

Hadoop 調査報告書

Hadoop 調査報告書エヌ・ティ・ティレゾナント株式会社株式会社 Preferred Infrastructure 平成 20 年 8 月 25 日 • 免責条項本報告書はエヌ・ティ・ティレゾナント株式会社 (以下「NTT レゾナント」）と株式会社 Preferred Infras- tructure(以下「Preferred Infrastructure」) が作成したものですが、報告書の内容及び情報の正確性、完全性、有用性について、NTT レゾナント及び Preferred Infrastructure は保証を行なっておらず、また、いかなる責任を持つものでもありません。本報告書の著作権は NTT レゾナントに帰属します。本報告書の「プリントアウト」「コピー」「無料配布」は可能ですが、変更、改変、加工、切除、部分利用、要約、翻訳、変形、脚色、翻案などは禁止します

solitary_shell 2008/11/27

Hadoop

リンク

Hadoop、hBaseで構築する大規模分散データ処理システム

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

solitary_shell 2008/10/22

Hadoop

リンク

Hadoopの解析資料

オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行複数マシンへHadoopをインストールする

solitary_shell 2008/08/27

Hadoop

リンク

HBaseの開発者がHadoop、BigTable、分散データベースについて語る

Google が最近リリースしたGoogle Application Engineと、それが持つBigTableへのアクセス機能により、（RDBの）代替となるデータベース技術への感心が新たに盛り上がっている。数週間前にInfoQは、GoogleのBigTableデータベースから着想を得て始められた、Hyperta bleプロジェクトの創始者であるDoug Juddにインタビュー(source)を行った。今週InfoQは、HBase(サイト・英語)の主要な開発者であるJim Kellerman 、Michael Stack、Bryan Duxburyへのインタビューを行った。HBaseはオープンソースで分散型、列指向のデータストアで、BigTableを手本として作成された物である。 1. HBaseについて初めて聞く、と言う方に対しての説明をお願いします。 HBase はオープンソースで分散型

solitary_shell 2008/06/06

リンク

Hadoop、hBaseで構築する大規模分散データ処理システム：CodeZine

はじめに　この連載では、大規模分散計算フレームワーク「Hadoop」と、その上につくられた大規模分散データベース「hBase」の仕組みと簡単なサンプルアプリケーションを紹介します。HadoopとhBaseは、Googleの基盤ソフトウェアのオープンソースクローンです。機能やコンセプトについては、Googleが発表している学術論文に依っています。　これらの学術論文によると、Googleでは大規模分散ファイルシステム「Google File System」、大規模分散計算フレームワーク「MapReduce」、大規模分散データベース「BigTable」、分散ロックサービス「Chubby」という4つのインフラソフトウェアが使われています。図1にGoogleの基盤技術間の依存関係、そしてそれに対応するOSSの対応関係を示しました。まずは対応するGoogleの基盤技術それぞれの機能や特徴をざっくりと

solitary_shell 2008/05/04

リンク

Hadoop

13. $ env | grep JAVA JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/CurrentJDK/Home $ java -version java -versionjava version quot;1.5.0_07quot;Java(TM) 2 Runtime Environment, Standard Edition (build 1.5.0_07-154)Java HotSpot(TM) Client VM (build 1.5.0_07-87, mixed mode, sharing) $ curl -O http://www.apache.org/dist/lucene/hadoop/stable/hadoop-0.13.0.tar.gz $ tar zxvf hadoop-0.13.

solitary_shell 2008/01/17

Java
Hadoop

リンク

Product: Hadoop - High Scalability -

Update 5: Hadoop Sorts a Petabyte in 16.25 Hours and a Terabyte in 62 Seconds and has its green cred questioned because it took 40 times the number of machines Greenplum used to do the same work. Update 4: Introduction to Pig. Pig allows you to skip programming Hadoop at the low map-reduce level. You don't have to know Java. Using the Pig Latin language, which is a scripting data flow language, yo