タグ

Hadoopに関するsin_cosのブックマーク (17)

  • Hadoopを用いた大規模ログ解析

    JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー(NTTデータ テクノロジーカンファレンス ...NTT DATA Technology & Innovation

    Hadoopを用いた大規模ログ解析
  • Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌

    Hadoopは分散処理によって、大量データの一括処理をRDBMSよりも大幅に高速化できるミドルウエアで、これまではログ解析など特定の分野で使われてきた。これを、基幹バッチ処理に適用するためのフレームワークが登場した。オープンソースソフトウエアの「Asakusa」である。 連載では、Asakusaの開発責任者がその全体像を解説する。Hadoopがなぜ速いのかを解説したあと、Asakusaの構成要素や設計方法、実際のコーディング例を示す。

    Hadoop向け基幹バッチ分散処理ソフト「Asakusa」の全貌
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

    『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
  • 「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ

    Yahoo!が大規模分散処理のフレームワーク「Hadoop」の次世代版を開発することを、ブログYahoo! Developers Networkにポストしたエントリ「The Next Generation of Apache Hadoop MapReduce」で明らかにしました。 Yahoo!によると、現在のHadoopの実装では1クラスタあたり4000台程度でスケーラビリティの限界にあたるため、アーキテクチャを見直して信頼性や可用性を高めると同時に、1万台から2万台を超えるクラスタのスケーラビリティを実現したうえで、従来のHadoopとアプリケーションの互換性を保つ予定とのこと。さらに、マルチテナント対応、多言語プログラミングのサポートなども実現する予定のようです。 Apache Hadoopコミュニティと協力して開発を進める Yahoo!はブログで次のように書いています。 The c

    「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ
  • 次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記

    Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。 概要大規模データを扱うビジネスでは、少数の大規模なクラスタのほうが多数の小規模なクラスタよりも安価になります。大規模クラスタは多くのデータセットを処理し、多くのジョブと多くのユーザをサポートする必要があります。ApacheのHadoop MapReduceフレームワークはだいたい4,000台程度でスケーラビリティの限界が来ます。私たちは次世代のApache Hadoop MapReduceを開発しており、そこではフレームワークを汎

  • HadoopがJavaではなくC/C++で実装されていたらどう違っていたか? - nokunoの日記

    Quoraでこんな質問を見つけたので適当に翻訳してみました。Would Hadoop be different if it were coded in C/C++ instead of Java? How? - Quora 回答1実際のところ難しいけど、考えてみるのは楽しいね。 実行時間は速くなると思うけど、それが決定的な違いになるかどうかはわからない。 セキュリティやいくつかの機能は実装しやすくなるかもしれない 他のプログラミング言語への対応はしやすくなる。Java/Pipes/Streamingを選ぶ代わりに、コンパイルしてリンクすればいい。 コード量は非常に大きくなる。エラーチェックのためにね。 コードベースが大きくなれば、開発スピードは遅くなる。Hadoopが今のように成長したかどうかわからない。 Pigは登場しただろうか? 私にはそうは思えない。回答2は略 回答3C/C++とJa

    sin_cos
    sin_cos 2011/02/01
    結局回答3が重要なんだろうか。
  • リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大

    リクルートや楽天が、オープンソースの分散バッチ処理ソフト「Hadoop」の利用を拡大している。リクルートはWebサーバーのログ解析用DWH(データウエアハウス)としてHadoopを採用。楽天はグループ内の全ログデータを対象とした統合ログ解析基盤の構築を、Hadoopベースで進めている。 NTTデータやウルシステムズなどのシステムインテグレータも、Hadoopを使ったシステム構築に取り組み始めており、1000台規模のHadoopクラスターもすでに稼働している。これら事例は、2010年12月15日に東京・秋葉原で開催された「日経コンピュータセミナー・Hadoopが変える企業情報システムの実像」で発表された。 DWHの構築にHadoopとHiveを採用--リクルート リクルートは、同社の「じゃらんnet」や「カーセンサー.net」「suumo」といった様々なWebサイトのログデータを一元的に解析

    リクルートや楽天、分散バッチ処理ソフトHadoopの利用を拡大
  • Hadoopは借りて使え - masayang's diary

    NTTデータが公開したHadoop資料が話題になっている。ざっと読む限り、コード事例もあって参考になることは確か。読まない手はないだろう。 だけど、Hadoop環境を自前で構築することには私はあまり賛同できない。技術屋が勉強するため、というのなら話は別だけど、事業でHadoopを使うのならクラウド上のを借りることをお勧めする。 例えば1000台のクラスタを構築して、デイリーバッチ処理が5分で終わるようになった! と喜ぶのも良いだろう。でも、残りの23時間55分はそのクラスタどうするのか?寝かせておくのであればROI評価は非常に低いものになるだろう。 かといってケチって5台のクラスタにしたらほぼ1日中稼動したのでROIは高くなりましたが処理時間短縮には至りませんでした、なんていうのも馬鹿げている。 じゃ、どこに最適点があるのか? 答は「自前で持たず、必要なときに必要な台数のクラスタを借りる」

    Hadoopは借りて使え - masayang's diary
    sin_cos
    sin_cos 2010/09/29
    ですよね。
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
    sin_cos
    sin_cos 2010/09/28
    「ものすごいお金がかかってるなと思ったと同時に、なんとなく血と汗と涙の匂いがただよってくる感じがしました。」
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
    sin_cos
    sin_cos 2010/09/17
    はじめはここからやるのもいいかもなぁ。
  • NoSQLについて知っておくべき10の事柄

    TechRebublicに「10 things you should know about NoSQL databases」(NoSQLデータベースについて知っておくべき10の事柄)という記事が掲載されています。NoSQLデータベースについての現状がよくまとまっている内容でしたので、見出しとポイントをまとめて紹介したいと思います。 10の事柄は前半と後半の2つに分かれていて、前半の5つではNoSQLの利点について説明されており、後半の5つは課題について説明されています。原文はそれなりに長い説明がされているので、詳しくは原文をぜひ見てみてください。以下はそれを1行程度に要約したものです。 5つのNoSQLの利点 Five advantages of NoSQL 1:Elastic scaling (弾力性のあるスケーラビリティ) NoSQLデータベースでは、ノードの追加による拡張性に柔軟に対

    NoSQLについて知っておくべき10の事柄
  • Hadoop

    TOPICS Database 発行年月日 2010年01月 PRINT LENGTH 568 ISBN 978-4-87311-439-2 原書 Hadoop: The Definitive Guide, First Edition FORMAT 書は、Hadoopの基礎から応用までを包括的に解説する書籍です。はじめに、Hadoopの分散ファイルシステムHDFSやI/Oの効率化の仕組みなど、Hadoopの基礎を説明し、なかでもMapReduceについて詳しく解説します。MapReduceのアプリケーションを開発するために必要なステップを一通り紹介し、さらにユーザの目から見てMapReduceがどう実装されるのかを詳述します。後半ではHadoop管理者のために、HDFSとMapReduceを実行するためのHadoopクラスタの立ち上げと管理の方法を紹介。さらにPig、HBase、ZooK

    Hadoop
    sin_cos
    sin_cos 2010/01/12
    是非購入します
  • Đăng nhập alo 789 Cờ bạc trực tuyến hàng đầu | 2024 Best Betting Sites

    alo 789 đăng nhập Hãy tham gia những trang web hàng đầu để trải nghiệm cờ bạc trực tuyến và tăng cơ hội giành giải lớn cùng với phần thưởng hấp dẫn, giúp quyết định dễ dàng hơn. Truy cập trang web hàng đầu để tham gia slot game và tăng cơ hội chiến thắng bằng cách đặt cược sau khi nghiên cứu! Chọn trò cá cược trực tuyến phổ biến, đăng ký thành viên và bắt đầu trải nghiệm ngay hôm nay. Sàn cá cược

    sin_cos
    sin_cos 2009/11/16
    日本のユーザー会
  • 分散処理ソフト「Hadoop」のユーザー会が日本で発足、企業の導入が広がる

    オープンソースの分散処理ソフトウエア「Hadoop」の日におけるユーザー会「Hadoopユーザー会」が2009年11月13日に発足した。Hadoopは米グーグルの分散処理ソフト「GFS」「MapReduce」を模したもの。同日開催した「Hadoop Conference Japan 2009」には200人以上のエンジニアなどが集まり、Hadoopコンサルティングを行う米クラウデラ、ユーザー企業の楽天はてななどが講演した。 Hadoopはグーグルが2004年までに公開したGFSやMapReduceの論文を基に、プログラマーのダグ・カッティング氏が2005年に開発したソフトウエア。カッティング氏は2009年に、米ヤフーからクラウデラに移籍している。クラウデラは、グーグルで上級ソフトウエアエンジニアを務めたクリストフ・ブシーリヤ氏らが2008年に起業したベンチャー企業で、Hadoop関連のツ

    分散処理ソフト「Hadoop」のユーザー会が日本で発足、企業の導入が広がる
    sin_cos
    sin_cos 2009/11/16
    日本のユーザー会が発足。大阪で講演とかしてくれないでしょうか。
  • Hadoopが秘める可能性:オンプレミスでもクラウドでも使えるプラットフォームの魅力

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます ニューヨークで10月2日、「Hadoop World:NYC 2009」が開催された。 Hadoopとは、GoogleMapReduceとGoogle File System(GFS)のオープンソース実装。YahooAmazonなど各種のサービスプロバイダーで利用されており、ペタバイト世界に対応するためのプラットフォームだ。 検索以外での利用に大きな可能性を秘めるHadoop 検索エンジンのためのフレームワークがこれほどまでに注目される理由は、その守備範囲の広がりに大きな可能性が見出されているからだ。 たとえば、ウェブから集めてきたデータを、検索とは別の方向性で分析することが可能。また、各種ログデータの解析、遺伝子工学におけるゲノム

    Hadoopが秘める可能性:オンプレミスでもクラウドでも使えるプラットフォームの魅力
    sin_cos
    sin_cos 2009/11/06
    いつか試したいんですが・・・そこまでの大量データを捌く機会が。
  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • 1