第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料 『Apache Sparkのご紹介』(後半:技術トピック) NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田 浩輔 (Kousuke Saruta) http://oss.nttdata.co.jp/ 前半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-spark-spark
矢野:そうですか。 店舗の中で、居場所と体の動きを検知できるセンサを従業員が身に着けて、来店したお客様にも買い物の間だけ身に着けてもらい、毎秒20回ずつひたすらデータを取り続けるわけですが、それを解析した人工知能コンピュータがすごく意外な影響要因をはじき出した。 店内のいくつかの「ある特定の場所」に従業員が「いる」だけで顧客単価が向上するというんですね。そこでの滞在時間を1.7倍にしただけで顧客単価が15%も増えたとか。でもそれがどういう理由なのか言葉ではうまく説明できない。これは、具体的にはどういうことをコンピュータでやっているんですか。 矢野:ごく単純に言うと、1人のお客さんがいくらお金を使うかという売り上げというマクロな量に対して、影響を与えるかもしれない要因はものすごくたくさんあります。そのたくさんの要因の中で、影響がありそうな候補を何千個、何万個と自動で作り出し、かつそれらを絞り
膨大な個人情報が含まれる「ビッグデータ」について、匿名性が高い情報であれば、本人の同意がなくても第三者に提供できるようにするよう、政府は個人情報保護法の改正を進めるとした。ビジネスで積極的に活用できるようにするためだ。NHKニュースが報じている。 「ビッグデータ」は、ホームページの閲覧履歴や携帯電話の位置情報など、インターネット上などに蓄積された膨大な電子情報で、本人に無断で第三者に提供することは個人情報保護法で禁じられています。 こうしたなか、政府のIT総合戦略本部は、「ビッグデータ」をビジネスに利用する動きが広がっていることから、より活用しやすい環境を整備するため、個人が特定されないよう処理した匿名性の高いデータは、本人の同意がなくても第三者に提供できるよう制度を見直す方針を決めました。 (NHKニュース「政府 ビッグデータ活用で法改正へ NHKニュース」より 2013/12/23 0
Treasure Dataのサービスはクラウド上でどう構築されているのか(後編)~July Tech Festa 2013 Treasure Dataといえば、日本人がシリコンバレーで創業したベンチャーとして知られている企業。そのシニアソフトウェアエンジニア中川真宏氏が、7月14日に行われたJuly Tech Festa 2013の基調講演で、同社がクラウド上で構築したサービスについてそのアーキテクチャを中心に解説を行っています。 この記事は「Treasure Dataのサービスはクラウド上でどう構築されているのか(前編)~Japan Tech Festa 2013」の続きです。 データを解析する「Plazma」の仕組み データを解析するところでは「Plazma」と呼ぶ、Hadoopのエコシステムとカラムストアなどを組み合わせたものを用いています。
カラム型データベースはなぜ集計処理が高速で、トランザクションが苦手なのか。インメモリとカラム型データベースの可能性を調べる(その4) 現在主流となっているOracle、SQL Server、DB2などのリレーショナルデータベースは事実上すべて、行(ロー)指向で内部の処理を行っています。一方で、最近急速に注目されているのが、列指向で内部処理を行い、大量データの集計や分析処理に優れた「カラム型データベース」(あるいはカラム指向データベース、カラムナーデータベース)です。 カラム型データベースはSybase IQやNetezza、Verticaなどデータウェアハウス専用のデータベースで主に採用されています。また、SQL Serverには「ColumnStore Index」、Oracle Exadataには「Hybrid Columnar Compression」と呼ばれるカラム型データベースの
日本企業がDX(デジタル・トランスフォーメーション)を正しく進めるために必要なキーワードについて考えます。 Grupo Casino(グルッポ・カシーノ)はフランスを中心に南アメリカ、アジアなど9か国に11,000店舗を展開し、約23万人を雇用する、世界最大の食品小売りチェーンのひとつである。売上は290億ユーロ(約3兆円)。 ちなみにイオン、7&i HDはともに5兆円前後だから、人口6500万人(日本のほぼ半分)のフランスにおいてはイオンやセブンに匹敵する存在と考えてよいだろう。 ■カシーノが推進するプレシジョン・リテーリング戦略 現在そのカシーノが推進しているのが、プレシジョン・リテーリング Precision Retailing、「高精度なリテール」戦略である。 プレシジョン・リテーリングとは何か?・・・筆者としては張り切って解説したいところなのだが、これを見事に表現しきった素晴らし
日本企業がDX(デジタル・トランスフォーメーション)を正しく進めるために必要なキーワードについて考えます。 前篇はこちら:「インメモリ・コンピューティングって、何?~13時間53分お待ちください!?」 インメモリ・コンピューティングとは、ひとことで言うと「すべてのデータをメモリ上に持つことによって、処理を圧倒的に高速化する」という新しい技術の総称であり、SAP HANAもそのひとつだ ■10万倍は「あたりまえ」 前回は「HDDはメモリに比べてアクセス速度が10万倍くらい遅い。それならHDDをやめて全部メモリにすれば、速くなるんじゃないの?」というところまで話を進めた。 そのとおり。そしてその考え方を「インメモリ・コンピューティング」と呼ぶ。すべてのデータをメモリに持っておき、読み書きをメモリ上だけで処理することにより、圧倒的な速度を実現する技術であり、SAP HANAもそのひとつだ。 イン
日本企業がDX(デジタル・トランスフォーメーション)を正しく進めるために必要なキーワードについて考えます。 「ビッグデータ」熱が燃え盛り、「企業はTwitterやFacebookをはじめとするSNSのデータをも、価値を生む(かもしれない)ものとして扱うべきだ」、とITベンダーは説いている。 しかしその前に。企業内に、現在なんの分析もされていないテキスト情報が、大量に放置されていたりしないだろうか? 米国メドトロニック社ホームページ(http://www.medtronic.com/) ■苦情(Complaint)を徹底的に集める メドトロニック Medtronic 社は世界最大の医療機器メーカーのひとつである。売上高は35億USドル(約3兆円)、従業員38,000人。120カ国で年700万人の患者にサービスを提供している。ちなみに700万人とはおおよそ「4秒に1人」に相当するが、これを「1
日本企業がDX(デジタル・トランスフォーメーション)を正しく進めるために必要なキーワードについて考えます。 昨年後半から今年前半にかけ、IT業界のバズワードナンバーワンといえば、文句なしに「ビッグデータ」であろう。その直前まで業界を覆っていた雲(クラウド)を吹き散らして、今や誰もが口を開けばビッグ、ビッグだ。 ■バズワードにご用心 (SAPに勤務している私が言うのもナンだが、)データをビッグにすると、いいことがありますよ、とITベンダーは言う。そりゃあ、大きいストレージに強いサーバー、太いネットワークが売れそう、となればITベンダーがそう言うのは当然だw。逆に言えば、ユーザー企業にお勤めのみなさんの場合は、それに唯々諾々と乗っていたのでは、、、「毎度ありがとうございます!」(笑)。 本稿では、なぜ「ビッグデータ」に踊らされてはいけないのか?では、どう考えればよいのか?について解説する。 結
Jaql(a query language desired for JSON:JSON用に位置づけられたクエリ言語)は、JSON型式のデータを処理するためのクエリ言語で、Apache HadoopのMapReduceを処理するための実装が存在します。日本語では「じゃっくる」と発音します。ジャッカルに似ているため、一部のサイトにはジャッカルの写真が掲載されていました。 もともとはIBMのアルマデン研究所で研究・開発され、オープンソースへ提案されました。本原稿執筆時点では、Apache Incubatorプロジェクトになっており、Google Codeのサイトで開発が進められています。 IBMアルマデン研究所のサイト Apache Hadoop用実装のダウンロードサイト 本記事執筆時点では、つい先頃リリースされた、Jaql 0.5.1をベースに解説しています。 1. JSONの基礎 JSON(
2012年 ビッグデータ経営革命 「週刊ダイヤモンド」2012年1月28日号・第2特集「2012年 ビッグデータ経営革命」より特別公開! バックナンバー一覧 ネットの書き込み、位置情報、防犯カメラの映像……。世に溢れるケタはずれに大量なデータを経営に活用しようという機運が盛り上がってきた。技術、コストの面での環境も整い、2012年は「ビッグデータ経営」が花開く年となりそうだ。 本誌・深澤 献 ようやく機が熟した! 2012年はビッグデータ元年 ギガ、テラ、ペタ、エクサ、ゼタ、ヨタ……。なにやら怪しげな呪文のようだが、コンピュータのデータ量などを表す“接頭辞”である。ヨタというのは10の24乗。まさに天文学的なケタ数だ。 ベートーベンの名曲集は20ギガバイト、米国議会図書館の蔵書は10テラバイト、全世界の印刷物は200ペタバイトで収まるという。そして21世紀に入り、この世界にはデジタルデータ
オラクルが提供するETLツール“Oracle Warehouse Builder”は、一般的なETLツールの機能であるデータの流し込みを担当するツールにとどまらず、データ・ウェアハウスの設計、構築のための機能を豊富に揃えている。ここでは、そうした機能の数々を紹介する。 ウェアハウス・グリッドといった大規模な環境を構築し、運用するためには、ツールにも高度な機能と使いやすいインターフェイスが望まれる。Oracle Database 10g Release 2では、BIやデータ・ウェアハウスに利用可能なさまざまな機能拡張が施されていることから、構築/運用管理ツールがこうした機能に対応し、使いやすいインターフェイスを提供してくれないと、せっかくの機能もその真価を引き出すことが難しくなってしまう。 “Oracle Warehouse Builder”は、Oracle Database 10g Rel
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く