[B! hadoop] nbqx69のブックマーク

グーグル発「Hadoop」、日本企業も利用へ

Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System（GFS）」を模した「Hadoop Distributed File System（HD FS）」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

nbqx69 2011/01/18

hadoop

リンク

Hadoopは借りて使え - masayang's diary

NTTデータが公開したHadoop資料が話題になっている。ざっと読む限り、コード事例もあって参考になることは確か。読まない手はないだろう。だけど、Hadoop環境を自前で構築することには私はあまり賛同できない。技術屋が勉強するため、というのなら話は別だけど、事業でHadoopを使うのならクラウド上のを借りることをお勧めする。例えば1000台のクラスタを構築して、デイリーバッチ処理が5分で終わるようになった！　と喜ぶのも良いだろう。でも、残りの23時間55分はそのクラスタどうするのか？寝かせておくのであればROI評価は非常に低いものになるだろう。かといってケチって5台のクラスタにしたらほぼ1日中稼動したのでROIは高くなりましたが処理時間短縮には至りませんでした、なんていうのも馬鹿げている。じゃ、どこに最適点があるのか？答は「自前で持たず、必要なときに必要な台数のクラスタを借りる」

nbqx69 2010/09/29

hadoop

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

nbqx69 2010/09/29

hadoop

リンク

HadoopとMongoDBを活用したソーシャルアプリのログ解析

This document describes code for a data sucka tool that retrieves crisis data from multiple sources including Ushahidi, ReliefWeb, and GDELT, transf orms it into a common format, and returns the data. The code defines classes for each data source that implement functions for retrieving data from the source's API, transf orming it to match a CrisisNET schema, and returning the data. It retrieves data

nbqx69 2010/09/28

リンク

その分析、Hadoopなら速く安くできます

ビジネスデータを分析するビジネスインテリジェンス（BI）分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか？現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able probl ems」（Hadoop化可能な10の一般的課題）と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

nbqx69 2010/08/27

hadoop

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

nbqx69 2010/08/23

hadoop

リンク

大量データのバッチ処理を高速化するHadoop

Hadoopというソフトウエアが、いま注目を集めています。米Googleが発表した論文のアイディアをオープンソース・モデルで実装したソフトウエアです。膨大な量のデータを処理する必要に迫られた企業や研究組織が、続々とHadoopを実際に活用しはじめています。私たちの研究グループでは、Wikipediaなどの巨大なテキスト・データを解析するために、2007年頃からHadoopを利用しはじめましたが、日本国内でも2009年あたりからHadoopを使った事例を多く見聞きするようになりました。国内で初めてのHadoop関連イベントが2009年11月に東京で開催され、オライリー・ジャパンから2010年1月にHadoop本の邦訳が出版されるなど、Hadoopが多くの開発者の注目を浴びています。しかしながら、「Hadoopは何となくすごそうなんだけど、複雑だし、どんなソフトなのかいまいち分からないんだ

nbqx69 2010/06/04

hadoop

リンク

http://shibuya.lisp-users.org/2010/03/21/sllt-5-mov-4/

nbqx69 2010/03/21

リンク

Hadoopを使いこなす(1)

まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

nbqx69 2010/03/17

hadoop

リンク

Measuring Measures: The Agony of Clojure/Hadoop Logging, and How to Fix It

nbqx69 2010/01/20

リンク

clojure-hadoop 1.1.0 release – Digital Digressions by Stuart Sierra

nbqx69 2010/01/16

リンク

Coming soon

nbqx69 2010/01/13

hadoop

リンク

Coming soon

nbqx69 2010/01/13

リンク

Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

8月に入社した佐々木です。こんにちわ！入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…！！そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている（使いたいと思っている）方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214tech blog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

nbqx69 2009/12/18

hadoop

リンク

Cloudera Blog

nbqx69 2009/11/25

リンク

Progressive Data Solutions - Ruby on Hadoop Quickstart

After my recent experiences with CouchDB (which is a great product) I was forced to look for something that could handle large amounts of data more efficiently. After doing some research, I settled on Hadoop. If you are dealing with truly large amounts of data, in the multiple terabyte range or larger, there really are only a few options available to efficiently store and process that data. If you

nbqx69 2009/09/23

ruby
hadoop

リンク

クックパッドとHadoop - クックパッド開発者ブログ

はじめまして。今年の5月に入社した勝間@さがすチームです。入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています！さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、クックパッドの検索まわりについて、いろいろな開発を行っています。一方で、ユーザの「さがす欲求」について深く知るために、大規模なデータ解析を行い、欲求の分析を行う機会も増えてきました。ところが、クックパッドのログは膨大な数があるので、一口のデータ解析と言っても通常のバッチ処理だと間に合わないため、分散処理環境の必要性が高まってきました。そこで、まずは手軽に試せる分散処理の王道ということで、最近ではHadoopを使ったデータ解析環境を整備しています。

nbqx69 2009/09/17

hadoop

リンク

blog.katsuma.tv

久々のBlog更新、というわけでリハビリがてらJavaScriptで軽く遊んでみたいと思います。いま、巷で流行ってるMapReduceのオープンソース実装Hadoopは「Hadoop Streaming」という標準入出力でデータのやりとりができる仕組みを使って、 Hadoopの実装言語であるJavaにとらわれず、RubyやPerlなど他の言語でもMap＋Reduceの処理ができることが１つのウリになっています。で、僕たちwebエンジニアはみんなJavaScript大好きなので、「JavaScriptでもMap Reduceやりたい！」という流れになるのは必然です。そこで、試行錯誤でいろいろ試してみると割とさっくり出来たのでそのメモを残しておきたいと思います。環境の整備 Mac OSX上のVMWare FusionにCentOSの仮想マシンを２台立ち上げて、環境セットアップしました。

nbqx69 2009/08/05

リンク

Silicon Soul » HadoopDBのアーキテクチャ

■HadoopDBのアーキテクチャについて HadoopDB: An Architectural Hybrid of MapReduce and DBMS Techno logies for Analytical Workloads. Azza Abouzeid, Kamil Bajda-Pawlikowski, Daniel J. Abadi, Avi Silberschatz, Alex Rasin. In Proceedings of VLDB, 2009. より、 HadoopDBのアーキテクチャに関する章から、Hadoopに追加された４つのコンポーネントについて順に読んできます。 ▼Database Connector Database Connectorは、クラスタの各ノードにある個別のデータベースとTaskTrackerの間のインタフェースで、 HadoopのInputFo

nbqx69 2009/08/02

hadoop
db

リンク

HadoopDB | Silicon Soul

オレンジニュースさんでHadoopとRDBMSのそれぞれの特性をあわせた「HadoopDB」というProductが紹介されていました。開発者によるリリースノートはこちらです。 ■ Announcing release of HadoopDB (longer version) HadoopDBの特徴は 1. DBMSとMapReduceのハイブリッドで、分析作業を対象にしている 2. 一般的なサーバで構築された、（メモリとかDiskとかの）共有無しのクラスタまたはクラウド上で動作するようデザインされている 3. フリー・オープンソース並列DBのマーケットのギャップを埋めることを意図している 4. 既存の並列DBシステムやDBMS/MapReduceハイブリッドシステムよりスケーラブル 5. Hadoopと同様のスケーラビリティで、構造化データ分析作業において、優れたパフォーマンスを

nbqx69 2009/07/24

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

hadoopに関するnbqx69のブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス