印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日立ソリューションズは12月2日、東京・品川にて「Hadoopが導く分散処理における次世代のバッチ処理開発とは〜Asakusa FrameworkによるHadoopエンタープライズ適用セミナー〜」を開催した。 本稿ではその中から、ノーチラス・テクノロジーズ代表取締役副社長 神林飛志氏による講演「Hadoopによるバッチ処理の導入」を紹介する。 Hadoopを定義するのにビッグデータという言葉は必要ありません——神林氏は冒頭、こう切り出した。 いまやバズワードとして定着し始めている「ビッグデータ」だが、その言葉が語られるときはサブセットのごとく「並列分散処理システム」としてHadoopも引き合いに出されることが多い。だが神林氏は「ビッグデ
Hadoop World NYC 2011の参加レポートがあるということをTwitterで発見して、Hadoopソースコードリーディング第7回に行ってきました。 アジェンダは下記の3つ Hadoop World NYC 2011 参加レポート Part.1 Hadoop Troubleshooting 101 セッションレポート Hadoop World NYC 2011 参加レポート Part.2 それぞれで気になったところをメモ。 Hadoop World NYC 2011 参加レポート Part.1 Hadoop World NYC 2011の概要紹介と基調講演の内容の紹介といった感じ。会場の様子の紹介を聞く限りは盛況だったようですね。 参加者についてのトピックとしては、 利用者の平均Hadoopクラスタは120ノード 12.8%は1PB以上のデータ量 だとか。 基調講演の内容として
6. 1 1,000 / AP APAP AP DB d fluentd fluentd mongos mongod(PRIMARY) DB config mongod(SECONDARY) DB fluentd mongos mongod(SECONDARY) config ReplicaSets & Sharding NFS 6 8. 8.5GB 1.4GB / ID Nov 1 23:59:59 hogehoge-ap1 hogehoge ADD_MONEY 12345 [BeforeMoney] 67979 [AfterMoney] 68024 [Money] 45 Nov 1 23:59:59 hogehoge-ap2 hogehoge CONSUME_POWER 12345 [BeforePower] 25 [AfterPower] 20 [ConsumePower] 5 8 10. M
度々登場しております、gumiの新居です。 最近勉強会報告のブログばかりとなっておりますが、また何か面白いネタがあれば書きたいなーと思いつつ業務に追われ後手後手に回っております。。。 ということで、遅くなりましたが、先日11/8(火)、【エンジニアカフェEvent×gumiStudy】ソーシャルゲームの解析を支える技術-Hadoop編-を開催致しました。 ちなみにMongoDB編はこちら↓↓↓ gumiStudy #9「ソーシャルゲームの解析を支える技術-MongoDB編-」開催致しました 弊社からは堀内と本間、そしてAmazon Web Services(AWS)を提供されているアマゾンデータサービスジャパン株式会社から大谷様をお招きし、発表を頂きました。 会場は、今回もパソナテック様にご提供頂きました。 ソーシャルゲームとデータ解析 まずは弊社CTO堀内から、開会の挨拶と「ソーシャルゲ
昨日の深夜に某氏講師による「JavaエンジニアのためのHadoop入門」 の話題がネタになってましたが、僕はJavaエンジニアとしてキャリアを積んできてHadoopに入門しました。キリ HadoopはJavaで書かれているのでJavaエンジニアのキャリアのひとつとしていいと思いますけどね。 当初はHiveでデータ処理をしていましたがうまくHiveQLが書けず、DBエンジニアからHadooperになった人にSQLやデータモデルについて教えてもらったりしてました。 最近はインフラまわりをやるようになって、HeartBeatわかんねーーーーってなって、インフラエンジニアからHadooperになった人にいろいろ教えてもらったりしてました。 かようにHadoopを使う場合はいろいろなスキルが求められます。 まずインフラ構築、運用ならざっと下記のような作業が必要になるでしょう。 ハードウェア選定 ハー
Hadoopreading05 data intensive3 - Presentation Transcript MapReduceアルゴリズムデザイン Data-Intensive Text Processing with MapReduce 第3章 #hadoopreading @nokuno 自己紹介 2 Twitter: @nokuno はてな:id:nokuno 自然言語処理勉強会を主催(第2回は9/25開催) PRML/R/TokyoWebmining/Python/Hadoopなど 2002~2006:コミケで同人ゲーム売ってた 2007~2008:未踏でSocial IMEの開発 2009~現在:Web業界勤務(←今ここ) 本発表の元ネタ 3 Data-Intensive Text Processing with MapReduce 大規模テキスト
ツイート 第一日目、第二日目のメモに引き続いて、最後に個人的な Hadoop World 2011 のまとめをしてみたので、共有したいと思います。 ✔ 目次 写真で紹介する Hadoop World 2011 の様子 キーワード 7 つで読み解く Hadoop World 2011 Hadoop World 2011 の感想 Hadoop World 2011 でわたしが取ってきたメモへのリンク Hadoop World 2011 関連資料リンク ✔ 写真で紹介する Hadoop World 2011 の様子 Hadoop World 2011 は Sheraton NYC で開催されました。(NYC はどこのビルも工事中な感じでした) Sheraton Hotel (写真:左はメインで使っていたボールホール)は結構広かったのですが、 1,400 人からの参加者を収納するには狭すぎたと思い
過去に紹介した通り、「ビッグデータビジネスの時代」はバズワードと思われがちな「ビッグデータ」をむしろ現役コンサルタントの冷静なビジネスの視点と著者のユーモアで切り取った良書だと思うのですが、ここで紹介されなかったもうちょっと技術的なトピックを取り上げたいと思います。ビッグデータビジネスの時代 堅実にイノベーションを生み出すポスト・クラウドの戦略 鈴木 良介 翔泳社 2011-11-09 売り上げランキング : 898 Amazonで詳しく見る by G-Tools一つが技術のトレンドです。技術のドライバーがサーバからPCに移り、まただんだんサーバに戻りつつスマートフォンがそこに強い影響を与えているというのが、最近技術系トピックでは多くなってきました。例えば、メモリに関しては、PCで収益を上げるのが非常に難しくなってきているため、サーバとスマートフォンに新技術をまず投入し、利益を確保しようと
We’ve made the very difficult decision to cancel all future O’Reilly in-person conferences. Instead, we’ll continue to invest in and grow O’Reilly online learning, supporting the 5,000 companies and 2.5 million people who count on our experts to help them stay ahead in all facets of business and technology. Come join them and learn what they already know. Become an O’Reilly online learning member
Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。 内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts とすることとか(ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな)、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り
前に書いた エントリ の通りHoopが有望な感じだったんだけどどのくらいの性能が出るのか見てみないことには本番投入して性能出ませんでした乙、ということになりかねない。ので見てみた。 なお検証に関係する環境としては以下の通り。ちなみに前はCDH3u1で試してたけど、今回はCDH3u2 (JDK6u29) on CentOS5。メモリが問題になることは全くないので全て省略。 ベンチ用サーバ Intel Xeon 4Core HT 2.4GHz データ中継サーバ (deliver) Intel Xeon 4Core HT 2.4GHz Hadoop NameNode (+JobTracker) (namenode) Intel Xeon 1Core HT 3.16GHz Hadoop DataNode + TaskTracker x9 Intel Xeon 1Core HT 3.16GHz Ho
10/19(水)に都内某所でログ解析飲み会なるものを開催した。 ログ解析飲み会なのにログが無いってどういうこと?と某氏に突っ込まれたので酔っぱらいの記憶をたよりに書いてみる。ここには書けないオフレコ話も多々あったように思うが忘れたので書かない。 またここに書くことは僕の脳みそで理解した部分に限るが、誤解が含まれている可能性はもちろんあるので変なことを書いていたら指摘していただけると幸いである。 で、この飲み会を開いた経緯としてはですね、僕自身がHiveを用いたログ解析をするようになって他の人の現場寄りの話を聞きたいなーと思ってTwitterで絡んでいたら大物がきたので開催した次第である。大物が誰かはマル秘事項である。一人じゃないとだけいっておこう。 世の中的にも主にWeb業界でHadoopでのBI案件が広まるにつれて、Hive, Pig, Hadoopストリーミング, 生MapReduce
手に入ったので読みつつ必要なところをまとめていく。 2章:MapReduceの基礎 大規模データの問題に対する実際的なアプローチは分割統治法しかない。 分割統治法アルゴリズムの実装には対処する必要のある問題(低水準なものも)が多い。 Hadoopはその低水準な問題をプログラム作成者が考えずにすむ抽象化されたインターフェースを提供する。 Hadoopとgoogleのmap reduce実装は異なる点がある。 googleの実装ではreducerに渡るvalueの並びを指定するセカンダリソートキーを指定できる。 Hadoopではそのような指定はできない。 mapタスクの数は入力データにより可変だが、Reduceタスクの数は厳密にプログラマが指定可能。 mapタスクやreduceタスクでは外部状態に影響された処理を行うことも可能。 mapタスクとreduceタスクの実行時間はそれぞれもっとも遅い
次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く