並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 6097件

新着順 人気順

hadoopの検索結果241 - 280 件 / 6097件

  • Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

      Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp
    • RightScale Product Demonstration | Cloud Computing Management Platform by RightScale

      Cloud Management Platform Implement an industry-leading cloud management solution for all cloud use Among the industry’s leading cloud management platform tools, Flexera’s comprehensive Cloud Management Platform (CMP) provides a rich set of capabilities for discovery, template-based provisioning, orchestration and automation; operational monitoring and management; governance; and cost optimization

        RightScale Product Demonstration | Cloud Computing Management Platform by RightScale
      • Twitterのリアルタイム分散処理システム「Storm」入門

        鈴木 貴典+木村 宗太郎 TwitterのNathan Marz氏が開発している 「Storm」 。 2011年9月に、オープンソースとして公開されましたが、まだまだ日本で得られる情報は少なく、 詳細は不明なところも多いです。 そこで、日本初(たぶん)の「Storm」セッションを行います。 「Storm」は、CEP(Complex Event Processing=複合イベント処理)に属するプロダクトであり、 分散リアルタイム処理を行うための基本セットを提供しています。 今回のセッションでは、その概念や特性などについて解説してみます。Read less

          Twitterのリアルタイム分散処理システム「Storm」入門
        • DeNA流データエンジニアリングの極意

          Developers Summit 2017 における「DeNA の機械学習基盤と分析基盤」の発表から「データエンジニアリングの極意」のパートを抜き出したもの。「機械学習基盤」のパートについては https://speakerdeck.com/sonots/dena-aisisutemubu-nioke…

            DeNA流データエンジニアリングの極意
          • blogeye.jp : ブログを通して社会をのぞく

            「新しいサラリーマン金太郎最悪」 「金太郎・・・」 「【サラリーマンなめんじゃねぇ!】」 「「サラリーマン金太郎」」 「金太郎」 「夜中のTV。」 「サラリーマン金太郎」 「サラリーマン金太郎。」 「サラリーマン金太郎(1)」 「どうもー」 「サラリーマン金太郎 1話」 「初聞き♪」 「なんか(笑)」 「サラリーマンをなめんじゃねぇ。」 「永井金太郎」 「思ったよりも」 「シシカバブー」

            • 素朴なBigtable、できること できないこと

              素朴なBigtable、できること できないこと:分散Key-Valueストアの本命「Bigtable」(2)(1/2 ページ) RDBとは別の、クラウド時代のデータベースとして注目を浴びている「分散Key-Valueストア」。その本命ともいえる、Googleの数々のサービスの基盤技術「Bigtable」について徹底解説 あまりにもRDBとは異質な「Bigtable」 前回の「もう1つの、DBのかたち、分散Key-Valueストアとは」では、連載第1回目として、クラウドコンピューティングにおける新しい潮流である「リレーショナルデータベース(RDB)から分散Key-Valueストア(分散KVS)への移行」が、どのようなパラダイムシフトをもたらすのかを解説しました。今回からは、グーグルが運用する代表的な分散KVS「Bigtable」の内部構造を紹介し、クラウドの本質をより深く掘り下げます。 前

                素朴なBigtable、できること できないこと
              • アクセンチュア

                世界の平均気温上昇を1.5°C以内に抑えるには2050年までにネットゼロを達成する必要があり、企業はこの目標達成に向けて重要な役割を担っています。目標設定から達成に向けた実行まで、企業は飛躍的に行動を加速させなければなりません。

                  アクセンチュア
                • 『Prestoとは何か,Prestoで何ができるか』 - トレジャーデータ(Treasure Data)ブログ

                  トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Hadoop Conference Japan 2014 以前に告知したHadoop Conference Japan 2014で,弊社Software Architectの古橋が発表しました。 テーマは,Facebookが公開した新しい分散処理基盤,Presto。実はFacebookが彼らの超大規模なデータセットに対してインタラクティブに結果を返せるようにと開発されたものです。開発が始まってまだ2年も経っておりませんが,今ではトレジャーデータを初めとして多くのハッカー達がコミッターとして参加する活発的なプロジェクトに成長しています。 PrestoはHiveやImpalaと同じ「SQL Query Engine」であり,特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを(コンマ0秒以下,遅くて

                    『Prestoとは何か,Prestoで何ができるか』 - トレジャーデータ(Treasure Data)ブログ
                  • リアルタイムログ分析基盤のAWS-_GCP移行話

                    6/26 【オンライン】ログ分析勉強会 vol.2 での登壇資料です https://loganalytics.connpass.com/event/176044/ #logben

                      リアルタイムログ分析基盤のAWS-_GCP移行話
                    • Introducing the MessagePack - Blog by Sadayuki Furuhashi

                      高速なシリアライズライブラリ MessagePack の新しいWebサイトをオープンしました! The MessagePack Project Ruby Inside でも取り上げられたようです: MessagePack: Efficient, Cross Language Binary Object Serialization 昨今、効率を重視したシリアライズライブラリが数多く登場しています。特に、大量の処理を行う大規模な基盤システム向けに開発されていることが多いようです。 少し探してみるだけでも、次のような事例が見つかります: BERT(githubで採用:Introducing BERT and BERT-RPC) Thrift(Facebookが開発:Thrift: Scalable Cross-Language Services Implementation) Avro(Hado

                        Introducing the MessagePack - Blog by Sadayuki Furuhashi
                      • 管理が困難―分散処理の常識はZooKeeperで変わる

                        管理が困難―分散処理の常識はZooKeeperで変わる:ビッグデータ処理の常識をJavaで身につける(8)(1/3 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 分散処理の課題が「管理」なのは常識 複数の計算機上で動作(分散)するアプリケーション、ソフトウェアが多く存在します。分散ソフトウェアは複数の計算機で動作することで大量のデータを扱えたり、高負荷な状況に対処します。本稿では、複数の計算機(クラスタ)で動作する各サーバを「インスタンス」と呼びます。 本連載で紹介した分散Key-Valueデータベースである「HBase」は複数の計算機で動作する代表的なソフトウェアです。両ソフトウェアはともに「Apache ZooKeeper」(以下、Z

                          管理が困難―分散処理の常識はZooKeeperで変わる
                        • decode17

                          分散並列処理の基本に関する解説と,分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です.

                            decode17
                          • MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena

                            Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。 いくつかの実用的なケーススタディも提供している。 すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー

                              MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena
                            • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

                              今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo! や Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

                                Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
                              • 『仕事ではじめる機械学習』&『前処理大全』著者対談(Part 1)

                                今回より4回を予定して、書籍『仕事ではじめる機械学習』著者の有賀康顕さん、『前処理大全』著者の本橋智光さんの対談をお届けいたします。ひょんなことから実現した今回の対談、今話題の機械学習を中心に、さまざまな角度からのお話しが飛び出します。まずはお二人の著書の話題から… 書籍の評判と執筆の苦労 (名刺交換をするお二人…) 有賀: そうか、CTOですもんね。 本橋: CTOと言ってもエンジニアは僕入れて4人ですけどねw 有賀: よくあるスタートアップのCTOって最初のエンジニアで、みたいな感じで。だから4人いるんだったら、ハイアリングがもうできるようになったという。 本橋: でも、いまAndroidエンジニアがいないから僕Androidアプリ書いてますよw もう少しすると入社する予定ですけれど。 有賀: スタートアップのCTOはできることは何でもやるということで。いやあ。ご活躍されていて。 本橋

                                • Google Research Publication: MapReduce: Simplified Data Processing on Large Clusters

                                  MapReduce: Simplified Data Processing on Large Clusters Jeffrey Dean and Sanjay Ghemawat Abstract MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with t

                                  • IDCF テックブログ

                                    こんにちは。プラットフォーム開発部の阿部です。 IDCFクラウド のYAMAHA vRXを使ってIDCFクラウドローカルとAWS間をVPN接続する方法を紹介します。 背景と目的 前提条件 構築の流れ 構築手順 1.ゲートウェイ構築 1-1.IDCFクラウド 仮想マシン作成(vRX) 1-2.IDCFクラウド 仮想マシン作成(サーバ) 1-3.vRX基本設定 1-4.パブリックIPアドレス作成 1-5.SSH接続 1-6.vRXオプション設定 1-7.サーバのゲートウェイ設定 2.VRRP構成 2-1.IDCFクラウド 仮想マシン作成(vRX) 2-2.vRX②設定 2-3.3つ目のIPアドレスの取得 2-4.VRRP IPアドレス設定 2-5.シャットダウントリガー設定 2-6.NATするIPアドレスの変更設定 3.AWSとのVPN接続 3-1.AWS カスタマーゲートウェイ(CGW)の作

                                      IDCF テックブログ
                                    • KOF2009「ウェブサービスのパフォーマンスとスケーラビリティ」 - stanaka's blog

                                      KOF2009にて、「ウェブサービスのパフォーマンスとスケーラビリティ」と題して発表してきました。発表資料を以下に置いておきます。 Performance and Scalability of Web ServiceView more presentations from Shinji Tanaka. 概要は、「ウェブサービスのパフォーマンスを向上させスケーラビリティを高めるために、はてなでは様々な取組みを行っています。本セッションでは、はてなで採用している具体的な技術、ノウハウ、可視化手法と、それらの効果について紹介します。」というものです。 最近の、Interopやカーネル読書会あたりで話した内容をまとめつつ、レスポンスタイムの可視化という最近の取り組みについて話しました。 最近、レスポンスタイムについては、以下のようなグラフを使っています。 x軸がレスポンス時間、y軸がその時間内に収

                                        KOF2009「ウェブサービスのパフォーマンスとスケーラビリティ」 - stanaka's blog
                                      • 第31回 RubyistのためのMongoDB入門(1) | gihyo.jp

                                        はじめに ここ最近、NoSQLというキーワードが注目を集めています。 リレーショナルデータベースは、一般的にスケールアウト(サーバの台数を増やして性能向上を図る手法)が難しく、特に大規模サービスにおいてパフォーマンス上のボトルネックとなりえます。また、タグやグラフ構造のようなデータは関係モデルに馴染みにくいため、それらを扱う際にはアプリケーションコードもぎこちないものになりがちです。 これらの問題を背景に、何にでもリレーショナルデータベースを使うのではなく、用途に応じてKVSなど他のデータストアを選択する流れが広まりつつあります。このムーブメントがNoSQL(Not Only SQL)と呼ばれているものです。 今回は、NoSQLなデータベースの1つであるMongoDBをご紹介します。 MongoDBとは MongoDBは高いパフォーマンスとスケーラビリティを特徴とするドキュメント指向型デー

                                          第31回 RubyistのためのMongoDB入門(1) | gihyo.jp
                                        • Loading...

                                          • BigQuery と Snowflake を徹底比較

                                            最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。 その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。 最後に、BigQueryとSnowflakeどっちが速いのか?といった疑問に対して、アーキテクチャをもとに考察します。

                                              BigQuery と Snowflake を徹底比較
                                            • 物理サーバを選定する際のポイント – Eureka Engineering – Medium

                                              Eureka EngineeringLearn about Eureka’s engineering efforts, product developments and more.

                                                物理サーバを選定する際のポイント – Eureka Engineering – Medium
                                              • ついに国内でも普及し始めたプログラミング言語「Scala」、誕生から10周年

                                                2014年9月6日、オブジェクト指向の関数型プログラミング言語「Scala」に関する大規模カンファレンス「ScalaMatsuri 2014」が開催され、筆者も参加した(写真1)。当日の様子をレポートしたい。 Scalaについては、名前は聞いたことがある方も多いと思う。2003年に生まれたオープンソースのプログラミング言語で、コンパイル後はJava VM上で動作する。Javaの既存資産を引き継ぎつつ、Javaにはない新たな言語の特徴を生かせることから、今後が期待されている言語の一つである。 Scalaは海外では、米Twitterや米LinkedInなどが利用していることで知られ、ネット企業を中心に普及しつつあるが、今年の同カンファレンスでの発表を聞いて、国内のネット企業でも、もはや当たり前のように使われる状況になったのだと実感した。 国内でのScalaのユーザーとしては、ドワンゴ、エムスリ

                                                  ついに国内でも普及し始めたプログラミング言語「Scala」、誕生から10周年
                                                • Home | Hypertable - Big Data. Big Performance

                                                  Big Data. Big Performance. Hypertable delivers scalable database capacity at maximum performance to speed up your big data application and reduce your hardware footprint. 100% Hadoop Compatible Hypertable seamlessly overlays on top of Hadoop to provide supercharged scalable database infastructure for your big data application. Less Hardware, Lower Cost Hypertable delivers maximum efficiency and su

                                                  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

                                                    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

                                                    • Apache Hadoop - Wikipedia

                                                      Apache Hadoopは大規模データの分散処理を支えるオープンソースのソフトウェアフレームワークであり、Javaで書かれている。Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopはGoogleのMapReduceおよびGoogle File System(GFS)論文に触発されたものである。 HadoopはApacheのトップレベルプロジェクトの1つであり、世界規模の開発貢献者コミュニティによって開発され、使用されている。[2] アーキテクチャ[編集] Hadoopは、以下の4つのモジュールによって構成されている。 Hadoop Common: 他のモジュールから共通して利用されるライブラリ群。 Hadoop Distributed File System (HDFS): Hadoop独自の分散ファイルシステム。 Hadoo

                                                      • MapReduce on Tyrant - mixi engineer blog

                                                        先日、隅田川の屋形船で花見と洒落込んだのですが、その日はまだ一分咲きも行ってなくて悲しい思いをしたmikioです。今回はTokyo Tyrant(TT)に格納したデータを対象としてMapReduceのモデルに基づく計算をする方法について述べます。 MapReduceとは Googleが使っているという分散処理の計算モデルおよびその実装のことだそうですが、詳しいことはググってください。Googleによる出自の論文やApacheプロジェクトによるHadoopなどのオープンソース実装にあたるのもよいでしょう(私は両者とも詳しく見ていませんが)。 今回の趣旨は、CouchDBがMapReduceと称してJavaScriptで実現しているデータ集計方法をTTとTCとLuaでやってみようじゃないかということです。簡単に言えば、以下の処理を実装します。 ユーザから計算開始が指示されると、TTは、DB内の

                                                          MapReduce on Tyrant - mixi engineer blog
                                                        • google/protobuf · GitHub

                                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                            google/protobuf · GitHub
                                                          • Run Kubernetes on a Mac with Kube Solo

                                                            Products Popular View all products (200+) Azure Virtual Machines Azure Virtual Desktop Azure SQL Microsoft Copilot in Azure PREVIEW Azure AI Services Azure AI Studio Azure Cosmos DB Azure Kubernetes Service (AKS) Azure Arc​ Azure Migrate AI + machine learning Azure Machine Learning Azure AI Services Microsoft Copilot in Azure PREVIEW Azure OpenAI Service Azure AI Studio Azure AI Vision Azure AI Se

                                                            • 富士通クラウドテクノロジーズ株式会社 aka ニフティ株式会社を退職します - PolyPeaceLight

                                                              2017/06/28 14:00 追記 「富士通」が冠についたことは何一つ退職の原因ではありません(そうでなければ「面白い会社です!」とか書きません)。クラウドを作る側に回りたいヒト、クラウドをもっと便利に使うための機能を作りたいヒトは引き続きおすすめの会社の1つです 退職エントリを見るたびに「知らんがな」という思いと「全員に直接いうのも変だから便利そう」という思いの両方がありましたが、いざ、自分が退職することになると「全員と飲みましょう」とか無理だと気が付き「便利」となったので書くことにしました。 正確には「富士通クラウドテクノロジーズ株式会社」を退職するのですが、正直2ヶ月しか働いておらず「遅れたニフティ株式会社の卒業生」という気持ちしかないので以降「ニフティ」と記載します。 このエントリも消されるかもしれませんが、そのときは社会の闇だと思って下さい。 就職してからここまで 博士課程満

                                                                富士通クラウドテクノロジーズ株式会社 aka ニフティ株式会社を退職します - PolyPeaceLight
                                                              • Hive (SQL-style) Query Language | Treasure Data

                                                                {"serverDuration": 35, "requestCorrelationId": "b45a8231fbaabbfb"}

                                                                • TechCrunch | Startup and Technology News

                                                                  Boeing’s Starliner spacecraft has successfully delivered two astronauts to the International Space Station, a key milestone in the aerospace giant’s quest to certify the capsule for regular crewed missions.  Starliner…

                                                                    TechCrunch | Startup and Technology News
                                                                  • TechCrunch | Startup and Technology News

                                                                    Live Nation says its Ticketmaster subsidiary was hacked. A hacker claims to be selling 560 million customer records. An autonomous pod. A solid-state battery-powered sports car. An electric pickup truck. A convertible grand tourer EV with up to 600 miles of range. A “fully connected mobility device” for young urban innovators to be built by Foxconn and priced under $30,000. The next Popemobile. Ov

                                                                      TechCrunch | Startup and Technology News
                                                                    • Tornado Web Server — Tornado 6.4 documentation

                                                                      ¶ Tornado is a Python web framework and asynchronous networking library, originally developed at FriendFeed. By using non-blocking network I/O, Tornado can scale to tens of thousands of open connections, making it ideal for long polling, WebSockets, and other applications that require a long-lived connection to each user. Quick links¶ Current version: 6.4 (download from PyPI, release notes) Source

                                                                      • 楽天テクノロジーカンファレンス 2008にいってきました - d.hatena.zeg.la

                                                                        1000人以上のエンジニア、全国各地に開発拠点をもっている 楽天のテクノロジーカンファレンスにいってきました。 分散並列処理フレームワークfaily,P2PオンメモリストレージROMAが 2009年にOpenSource化されるとのことでした。 楽天ウェブサービス APIの紹介 16種類のAPI 直近だと楽天ランキングAPI 1500万件,2万件の宿泊施設 Affiriateと連動可能 REST,JSON,SOAPのフォーマットをサポート 楽天ダイナミックアド 楽天版アドセンス 記事の内容にマッチした楽天の商品を出す 楽天経済圏 APIを使ったアプリが入り込める マッシュアップブームおちちている ALL 35,000ID Active 5,000ID Webサービス経由の流通金額は7.24% 3,500万request/day ItemSearch,GenreSearch,Itemcode

                                                                          楽天テクノロジーカンファレンス 2008にいってきました - d.hatena.zeg.la
                                                                        • LSH (Locality Sensitive Hashing) を用いた類似インスタンスペアの抽出 - mixi engineer blog

                                                                          GW 中の長距離移動のために体調が優れない takahi-i です. 今回は巨大なデータをマイニングする一つの技術として LSH (Localtiy Sensitive Hashing) を紹介させていただきます. LSH とは LSH は大量なデータから類似度が高いインスタンスのペアを高速に抽出してくれるアルゴリズムです. ここでインスタンスはデータ集合の一つの要素を表します. たとえば扱うデータが E-コマースサイトの購買ログであれば, インスタンスは各ユーザですし, 画像データ集合であれば, インスタンスは個々の画像データです. LSH の詳しい解説については以下のサイトがあります. Wikipedia のエントリ LSH に関する論文がまとめられているページ 本稿ではE-コマースサイトの購買履歴データを基に LSH の機能について述べてゆきます. 以下のような E-コマースサイトの

                                                                            LSH (Locality Sensitive Hashing) を用いた類似インスタンスペアの抽出 - mixi engineer blog
                                                                          • Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016

                                                                            Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016 日本を代表する規模のビッグデータ処理基盤を持つ企業の1つがYahoo! Japan(以下Yahoo!)です。 同社は2月8日に開催された「Hadooop Spark Conference Japan 2016」において、現在運用中のビッグデータ処理基盤の規模、そして同社が抱えている課題と、それをどう解決していくのかを基調講演の中で示しました。 同社が示した解決方法は、Hadoopなどのビッグデータ処理基盤を使い倒す側から、作る側へ向かうという大胆なものです。同社の貢献はオープンソースとなり、今後さらに多くの課題解決に役立つことになりそうです。 同社データインフラ本部 遠藤禎士(えんどうただし)氏

                                                                              Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく。Hadoop Spark Conference Japan 2016
                                                                            • ヤフーを変え始めたHadoop

                                                                              ヤフーが日本独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日本国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

                                                                                ヤフーを変え始めたHadoop
                                                                              • 楽天、分散キー・バリュー型データストア「ROMA」のソースコードを公開

                                                                                写真1●楽天テクノロジーカンファレンスでソースコード公開を発表するROMAの開発者 西澤無我氏(左)と、Rubyの開発者で楽天技術研究所フェローのまつもとゆきひろ氏(右) 楽天は2009年10月24日、同社が独自開発した分散キー・バリュー型データストア「ROMA」をオープンソース・ソフトウエアとして公開した。ROMAはスケールアウトが容易で、耐障害性の高いデータストア。「楽天市場」と「楽天トラベル」で、ユーザーによる閲覧履歴の保存にROMAを使用している。同日に開催した「楽天テクノロジーカンファレンス」に合わせて、「github」でソースコードを公開した。 ROMAは、楽天技術研究所フェローのまつもとゆきひろ氏(プログラミング言語「Ruby」の開発者)と協力して、2007年から開発してきた分散キー・バリュー型データストアである(写真1)。Rubyを使った大規模システムを実現するための分散処

                                                                                  楽天、分散キー・バリュー型データストア「ROMA」のソースコードを公開
                                                                                • ストリームデータ分散処理基盤Storm

                                                                                  2012年12月10日 NTTデータ オープンソースDAY 2012 講演資料 『ストリームデータ分散処理基盤 Storm』 NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 岩崎 正剛 http://oss.nttdata.co.jp/hadoop/

                                                                                    ストリームデータ分散処理基盤Storm