[B! Hadoop][開発環境] hirsatoのブックマーク

hirsato id:hirsato

Hadoopと開発環境に関するhirsatoのブックマーク (13)

http://agilecatcloud.com/2010/12/22/hadoop-2009-2010-%E7%B7%8F%E9%9B%86%E7%B7%A8-agile_cat-%E7%89%88-%E7%A5%9D-hadoopcountdown-cloud-cloudcomputing-hadoopjp/
hirsato 2010/12/30
hadoop

アーキテクチャ

開発環境
リンク
リアルタイムなHadoop？「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開－ Publickey
米Yahoo!は、大規模データの分散処理を実現するMapReduceをリアルタイムに行うソフトウェア「S4」を、オープンソースとして公開しました。 MapReduceを実行するソフトウェアとして、オープンソースの「Hadoop」がありますが、Hadoopはあらかじめジョブを定義して投入するバッチ処理を前提としていました。 S4は、データをキーとバリューのペアで構成されるストリームデータとして非同期に受け取ることができ、処理結果もキーバリューのペアで構成されたストリームデータとして出力するようになっているとのこと。この非同期なストリームデータによる入出力が、リアルタイムなMapReduceを実現するフレームワークとしてのS4の特徴といえます。リアルタイムなMapReduceで何ができる？リアルタイムなMapReduceにはどのような用途が考えられるのでしょうか？ S4の公開を表明したY
hirsato 2010/11/05
hadoop

開発環境

MapReduce

Yahoo
リンク
NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という
hirsato 2010/10/03
Hadoop

アーキテクチャ

開発環境

NTT
リンク
Legacy Communities - IBM Community
If you’re looking for a developerWorks forum — Don't panic! You are in the right place. You are here because specific IBM developerWorks forums, blogs and other Connections content have been decommissioned. This page will help you find the content you are looking for, get answers to your questions, and find a new community to call home. Where am I? You are on the IBM Community area, a collection o
hirsato 2010/08/19
開発環境

Hadoop

まとめ

プラットフォーム

クラウド
リンク
IBMによるHadoop入門
IBMがHadoop について紹介した文章を公開しています。PDFファイルで公開されており。ダウンロードは下記のリンクからダウンロードできます。 ○IBM Linux at IBM | Hadoop 入門「目次」は以下の通り – Hadoop とは – Hadoop のアーキテクチャー – Hadoop の導入と構成 – サンプルジョブによる動作確認 – スクリプトによるジョブの作成 – Pig の利用 – HBase の導入と構成 – 参考資料
hirsato 2010/08/19
開発環境

Hadoop

まとめ

プラットフォーム
リンク
Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。例えば、今まで1台でやっていた、あるログ集計処理
hirsato 2010/08/05
#hadoophn

まとめ

開発環境

Hadoop

Java

mapreduce

スケールアウト
リンク
Hadoop Hack Night 2の感想 - ひしだまの変更履歴
ひしだまＨＰの更新履歴。主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。 Hadoop Hack Night 2に行ってきたので、その感想など。（今どきノートに手書きでメモしてるもんだから、汚くて読めないのでまとめは出来ません（なんて無意味な！(爆)））（のっけから「Hadoop使ったことある人～？」って聞かれると、手を挙げていいのかどうか迷う…試しに擬似分散環境を動かしているだけだから…）ヤフーの吉田さんて、「Hadoopで、かんたん分散処理」を書いた人だそうで。 Hadoopという言葉を初めて聞いてネットで調べていた頃、この記事を見てHadoopに衝撃と本格的な興味を持ったんだよな～。（自分がなぜHadoopに興味を持ったのかについては、いずれ書きたいネタのひとつ。まぁ誰の役に立つわけでもないだろうけど(苦笑)） ABYSSでは、
hirsato 2010/08/05
#hadoophn

イベント

開発環境

hadoop

db
リンク
Hadoop Hack Night Vol. 2
1. 技術評論社／ヤフー共催 Hadoop Hack Night Vol. 2 2010年8月4日新たな情報インフラとしての Hadoopの活用株式会社リッテル上席研究員清田陽司 (兼東京大学情報基盤センター学術情報研究部門助教) Twitter: @kiyota_yoji 2. Hadoop活用の壁 • 実績がまだまだ少ない • ○○という機能がない • ファイルシステムとして備えるべき機能（アクセス権制御など) • マスタサーバの多重化 • Hadoopってよくわからないんだけど • RDBMSとの違いは？ • どういう処理でメリットがあるの？ • Hadoopってクラウドなの？(←そもそもクラウドって何よ？)
hirsato 2010/08/05
2010/8/4 #hadoophn

開発環境

hadoop

クラウド

まとめ

プレゼンテーション

イベント
リンク
米Yahoo!、Hadoopのセキュリティ強化版とワークフローエンジンをオープンソースに
米Yahoo!は、Apache Hadoopに関連した最新技術「Hadoop with Security」と「Oozie」を発表した。それぞれ認証周りとワークフローエンジンを担うもので、今後はオープンソースプロジェクトとして開発を進めていく。米Yahoo!は6月29日（現地時間）、分散処理プラットフォーム「Apache Hadoop」に関連した最新技術「Hadoop with Security」と「Oozie」を発表した。Yahoo!は2つの技術をApache Software Foundation（ASF）に移管し、今後はオープンソースプロジェクトとして開発を進めていく。 Hadoopは、米Googleの「MapReduce」と「Google File System（GFS）」に着想を得てはじまったオープンソースプロジェクト。現在、ASFのトップレベルプロジェクトとして開発が進んでいる
hirsato 2010/08/04
#hadoophn

開発環境

db

hadoop

セキュリティ

クラウド
リンク
Hadoop Pig の使用用途を教えてください質問と回答(Q&A) [okyuu.com]
- 1 user
- okyuu.com
- 学び
hirsato 2010/08/04
#hadoophn

開発環境

hadoop

db

pig
リンク
SQLライクにHadoop Hiveを使い倒す!
パーティションを利用する今回は少し凝ったテーブルを定義をしてみましょう。郵便番号データは毎月更新されるので、テーブル指定時にバージョンも指定できるようにします。このような場合、Hiveではパーティションを使います。以下に郵便番号を保存するテーブル「zip」を定義しますが、日付型DATEのパーティションverを設定するようにします。 hive> CREATE TABLE zip (zip STRING, pref INT, city STRING, town STRING) > PARTITIONED BY (ver DATE) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > LINES TERMINATED BY '\n'; OK Time taken: 0.128 seconds
hirsato 2010/08/04
開発環境

db

hadoop

hive
リンク
Hadoop Hack Night Vol. 2 … 技術評論社
たくさんのお申し込みありがとうございました。お申し込み期間：7月21日（水）～7月28日（水） 7月25日（日） 23時59分お申し込みが早くも100名を超えたため，予定を切り上げて 25日23時59分で終了いたします。お申し込み後，抽選となります。プログラム 18:30 開場 19:00～19:05 オープニング 19:05～19:35 ［オープニングセッション（30分）］Yahoo! JAPANにおけるHadoop利用について（仮）講演者：吉田一星氏，古宮陽明氏（ヤフー株式会社） 19:35～20:05 ［メインセッション（30分）］新たな情報インフラとしてのHadoopの活用（仮） Hadoopがいま注目されている背景には，Hadoopが備えている「スケール・アウト性」「スループット重視」「ロバスト性」という特徴が，情報爆発時代に必要とされている新たなインフラとし
hirsato 2010/08/04
イベント

hadoop

開発環境
リンク
Google File System(GFS)技術メモ — ありえるえりあ
* 参照した論文 + http://labs.google.com/papers/gfs-sosp2003.pdf * 特徴 + 安いPC(OSはGNU/Linux)で分散ファイルシステムを構築しています(*注1)。 + PCは壊れるという前提で設計しています(*注2)。このため、分散システムを構成するノードが壊れた時、データが失われないことと、自動で復旧できることに主眼を置いています。 + ファイルシステムを利用する側(アプリ)に、ある程度の想定を求めています。任意の利用ケースに対してそこそこのパフォーマンスを出す(=平均的に良い性能)のではなく、特定の利用ケースで性能を発揮できるように設計しています。 + 性能を発揮できる利用ケースは次のようなケースです。 ++ 主にサイズの大きいファイルを扱う(*注3)。 ++ ファイルへの書き込みは追記(append)が多い(ファイルの一部分を何度
hirsato 2010/03/19
hadoop

gfs

アーキテクチャ
リンク
1