米Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。 この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。 リアルタイムなMapReduceで何ができる? リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか? S4の公開を表明したY
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
If you’re looking for a developerWorks forum — Don't panic! You are in the right place. You are here because specific IBM developerWorks forums, blogs and other Connections content have been decommissioned. This page will help you find the content you are looking for, get answers to your questions, and find a new community to call home. Where am I? You are on the IBM Community area, a collection o
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理
ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。 Hadoop Hack Night 2に行ってきたので、その感想など。 (今どきノートに手書きでメモしてるもんだから、汚くて読めないので まとめは出来ません(なんて無意味な!(爆))) (のっけから「Hadoop使ったことある人~?」って聞かれると、手を挙げていいのかどうか迷う…試しに擬似分散環境を動かしているだけだから…) ヤフーの吉田さんて、「Hadoopで、かんたん分散処理」を書いた人だそうで。 Hadoopという言葉を初めて聞いてネットで調べていた頃、この記事を見てHadoopに衝撃と本格的な興味を持ったんだよな~。 (自分がなぜHadoopに興味を持ったのかについては、いずれ書きたいネタのひとつ。まぁ誰の役に立つわけでもないだろうけど(苦笑)) ABYSSでは、
1. 技術評論社/ヤフー 共催 Hadoop Hack Night Vol. 2 2010年8月4日 新たな情報インフラとしての Hadoopの活用 株式会社リッテル 上席研究員 清田 陽司 (兼 東京大学情報基盤センター 学術情報研究部門 助教) Twitter: @kiyota_yoji 2. Hadoop活用の壁 • 実績がまだまだ少ない • ○○という機能がない • ファイルシステムとして備えるべき機能(アクセス権制 御など) • マスタサーバの多重化 • Hadoopってよくわからないんだけど • RDBMSとの違いは? • どういう処理でメリットがあるの? • Hadoopってクラウドなの?(←そもそもクラウドって何 よ?)
米Yahoo!は、Apache Hadoopに関連した最新技術「Hadoop with Security」と「Oozie」を発表した。それぞれ認証周りとワークフローエンジンを担うもので、今後はオープンソースプロジェクトとして開発を進めていく。 米Yahoo!は6月29日(現地時間)、分散処理プラットフォーム「Apache Hadoop」に関連した最新技術「Hadoop with Security」と「Oozie」を発表した。Yahoo!は2つの技術をApache Software Foundation(ASF)に移管し、今後はオープンソースプロジェクトとして開発を進めていく。 Hadoopは、米Googleの「MapReduce」と「Google File System(GFS)」に着想を得てはじまったオープンソースプロジェクト。現在、ASFのトップレベルプロジェクトとして開発が進んでいる
パーティションを利用する 今回は少し凝ったテーブルを定義をしてみましょう。 郵便番号データは毎月更新されるので、テーブル指定時にバージョンも指定できるようにします。このような場合、Hiveではパーティションを使います。 以下に郵便番号を保存するテーブル「zip」を定義しますが、日付型DATEのパーティションverを設定するようにします。 hive> CREATE TABLE zip (zip STRING, pref INT, city STRING, town STRING) > PARTITIONED BY (ver DATE) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > LINES TERMINATED BY '\n'; OK Time taken: 0.128 seconds
たくさんのお申し込みありがとうございました。 お申し込み期間:7月21日(水)~7月28日(水) 7月25日(日) 23時59分 お申し込みが早くも100名を超えたため,予定を切り上げて 25日23時59分で終了いたします。 お申し込み後,抽選となります。 プログラム 18:30 開場 19:00~19:05 オープニング 19:05~19:35 [オープニングセッション(30分)]Yahoo! JAPANにおけるHadoop利用について(仮) 講演者: 吉田 一星 氏,古宮 陽明 氏(ヤフー株式会社) 19:35~20:05 [メインセッション(30分)]新たな情報インフラとしてのHadoopの活用(仮) Hadoopがいま注目されている背景には,Hadoopが備えている「スケール・アウト性」「スループット重視」「ロバスト性」という特徴が,情報爆発時代に必要とされている新たなインフラとし
* 参照した論文 + http://labs.google.com/papers/gfs-sosp2003.pdf * 特徴 + 安いPC(OSはGNU/Linux)で分散ファイルシステムを構築しています(*注1)。 + PCは壊れるという前提で設計しています(*注2)。このため、分散システムを構成するノードが壊れた時、データが失われないことと、自動で復旧できることに主眼を置いています。 + ファイルシステムを利用する側(アプリ)に、ある程度の想定を求めています。任意の利用ケースに対してそこそこのパフォーマンスを出す(=平均的に良い性能)のではなく、特定の利用ケースで性能を発揮できるように設計しています。 + 性能を発揮できる利用ケースは次のようなケースです。 ++ 主にサイズの大きいファイルを扱う(*注3)。 ++ ファイルへの書き込みは追記(append)が多い(ファイルの一部分を何度
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く