タグ

Hadoopに関するchoplinのブックマーク (5)

  • グーグル発「Hadoop」、日本企業も利用へ

    Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

    グーグル発「Hadoop」、日本企業も利用へ
  • エンジニア長期インターン GREE Studio 2010 5日目 | GREE Engineering

    前回に引き続き、井上が書かせていただきます。 GREE Studio 2010 5日目の講義内容はデータマイニングエンジニア、moritaさんによる「データマイニング」。業務のログ解析において用いられるデータマイニングの内容です。前回はレポート形式でしたが、今回はもう少しエンジニアリングブログに近い形で書こうと思って頑張りました。宜しくお願いします。今回のブログの内容は、 データマイニングの基礎知識 大規模データへの挑戦 になります。後で定義しますが、ここでの「データマイニング」とはデータを取得し、集計する作業も含めてこの言葉を指すことにしています。また、解析者とはデータマイニングを行う人のことを指します。(GREEではデータマイニングエンジニアと呼ばれています。)moritaさんの講義で学んだことを自分なりに膨らましてみました。色々誤りがあると思いますが、そういった部分は(優しく)指摘し

    エンジニア長期インターン GREE Studio 2010 5日目 | GREE Engineering
  • NoSQLについて知っておくべき10の事柄

    TechRebublicに「10 things you should know about NoSQL databases」(NoSQLデータベースについて知っておくべき10の事柄)という記事が掲載されています。NoSQLデータベースについての現状がよくまとまっている内容でしたので、見出しとポイントをまとめて紹介したいと思います。 10の事柄は前半と後半の2つに分かれていて、前半の5つではNoSQLの利点について説明されており、後半の5つは課題について説明されています。原文はそれなりに長い説明がされているので、詳しくは原文をぜひ見てみてください。以下はそれを1行程度に要約したものです。 5つのNoSQLの利点 Five advantages of NoSQL 1:Elastic scaling (弾力性のあるスケーラビリティ) NoSQLデータベースでは、ノードの追加による拡張性に柔軟に対

    NoSQLについて知っておくべき10の事柄
  • Hadoop Hack Night 2の感想 - ひしだまの変更履歴

    ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲーム音楽です。 Hadoop Hack Night 2に行ってきたので、その感想など。 (今どきノートに手書きでメモしてるもんだから、汚くて読めないので まとめは出来ません(なんて無意味な!(爆))) (のっけから「Hadoop使ったことある人~?」って聞かれると、手を挙げていいのかどうか迷う…試しに擬似分散環境を動かしているだけだから…) ヤフーの吉田さんて、「Hadoopで、かんたん分散処理」を書いた人だそうで。 Hadoopという言葉を初めて聞いてネットで調べていた頃、この記事を見てHadoopに衝撃と格的な興味を持ったんだよな~。 (自分がなぜHadoopに興味を持ったのかについては、いずれ書きたいネタのひとつ。まぁ誰の役に立つわけでもないだろうけど(苦笑)) ABYSSでは、

    Hadoop Hack Night 2の感想 - ひしだまの変更履歴
  • Hadoopモデリング座談会#2 - 科学と非科学の迷宮

    概要 イベント名 Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第二回) URL http://atnd.org/events/5987 日時 2010/07/26 18:00 - 20:00 場所 スター研修センター 御茶ノ水 Sun(サン)1F twitterハッシュタグ #hadoopModeling スーツ若干多め 年齢やや高め 女性ほぼ皆無 #1 @shot6 大谷晋平 現状と特徴 Hadoop の現状 上位レイヤの開発がホット 日語も充実 Nosql の現状 加熱し過ぎ Twitter のニュースはいい冷却剤 RDBMS の現状 成熟 Mysql の開発者はMariadb & Drizzle へ プレイヤーも新規参入者も減少 Hadoop の特徴 big data Yahoo 3PB/day Facebook 90TB/day Nos

    Hadoopモデリング座談会#2 - 科学と非科学の迷宮
  • 1