タグ

Hadoopに関するnminoruのブックマーク (65)

  • Oracle Big Data SQL | Oracle Database | Oracle

  • 欧米の金融業界は今、どうHadoopを活用しているか

    Hadoopは、欧米の金融関連サービス業界でどう活用されているか。米Hortonworksの金融サービス業界担当ゼネラルマネージャーへのインタビューで得た情報を、2回に分けてお届けする。今回は金融業界におけるHadoopのユースケースを概観する。 Hadoopは、欧米の金融関連サービス業界でどう活用されているか。米Hortonworksの金融サービス業界担当ゼネラルマネージャー、Vamsi Chemitiganti(バムシ・ケミティガンティ)氏へのインタビューで得た情報を、2回に分けてお届けする。今回は金融業界におけるHadoopのユースケースを概観し、次回は金融業界における事業環境の変化がHadoop活用にどのような影響を与えているかについて掘り下げる。 守りの活動でもソーシャル分析が重要に 金融関連サービス業界といってもさまざまで、消費者・法人向け金融機関、クレジットカード会社、ヘッジ

    欧米の金融業界は今、どうHadoopを活用しているか
  • HadoopとFluentdは、国内企業のビッグデータにおける事実上の標準になれるか

    HadoopとFluentdは、国内企業のビッグデータにおける事実上の標準になれるか:オープンソースとエンタープライズの関係(4) 日企業の間でのHadoop普及に向けた課題の克服について、NTTデータとFluentdを推進するトレジャーデータはどう取り組んでいるか。この分野における一般企業とオープンソースソフトウェアの関係を探る。 Hadoopは、非IT産業における普及が期待されるオープンソースソフトウェアの筆頭格といえる。端的にいって、Hadoopのような幅広いユースケースに対応できる単一の商用パッケージ製品は他に存在しない。特にビッグデータ/IoTについてはこのことが当てはまる。ビッグデータ関連のパッケージについてもHadoopを前提とし、これを補完するソフトウェアやハードウェアを組み合わせたものが多い。 では、非ITの一般企業はHadoopを使いさえすればそれでいいのか。過去約8

    HadoopとFluentdは、国内企業のビッグデータにおける事実上の標準になれるか
  • 第10回 データ処理の最適化 | gihyo.jp

    はじめに 前回は、これまで説明してきたアルゴリズムの性能を定量的に見積り、比較しました。今回は、これらの性能見積りを用いて行うデータ処理(問い合わせ)の最適化方法について説明します。 データ処理(問い合わせ)の最適化 第4回で述べたように、HadoopのSQL処理系であるHiveをはじめとし、ImpalaやPrestoなどの宣言型言語を用いるデータ処理系においては、利用者は何を(What)処理してほしいかを処理系に指示するのみであり、どのように(How)処理をしてほしいかは指定しません。すなわち、当該処理系においては、どのように処理をするかは処理系自体が決める必要があり、与えられた問い合わせ(クエリ)を最も良いと思われる方法で処理します。このように、問い合わせにおいて最良と思われるデータ処理の方法を見つけることを「⁠(⁠問い合わせ)最適化」と呼びます。 最適化においては、問い合わせを実行す

    第10回 データ処理の最適化 | gihyo.jp
  • 米Cloudera、Hadoop用の新ストレージ「Kudu」をOSSとして公開

    米Clouderaは2015年9月28日(米国時間)、オープンソースソフトウエア(OSS)の分散処理ソフト「Hadoop」用の新しいストレージである「Kudu」をOSSとして公開した。データの分析処理とオンライン処理の両方の高速化を図ったことが特徴。 Kuduは、データウエアハウス(DWH)のストレージとして一般的な「カラム(列)ストア」だ。カラムストアはデータをロー(行)単位ではなくカラム(列)単位で扱うため、データの分析処理において頻繁に発生する「特定のカラム(列)に対するデータの読み出し」を高速化できる。 これまでも「Parquet」というソフトウエアを使用すると、Hadoopの標準ストレージである「HDFS」をカラムストアとして使用できた。しかしHDFSは、データのオンライン処理に向いていないという弱点があった。 HadoopにはHDFS以外にもう一つ、データのオンライン処理が高速

    米Cloudera、Hadoop用の新ストレージ「Kudu」をOSSとして公開
  • リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか

    リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか:Elasticsearch+Hadoopベースの大規模検索基盤大解剖(1)(1/2 ページ) リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。初回は全体的なアーキテクチャ、採用技術、開発体制について。 連載目次 大規模BtoCサービスで求められる検索基盤は、どうあるべきなのか カスタマー(消費者)が求めるものが日々変わっていく現在において、BtoCの検索基盤はどうあるべきなのでしょうか。 例えば、リクルートで使われている検索基盤の「Qass(Query analyze search system)」は単に全文検索機能を提供するのではなく、以下を軸としています。 サービスごとに最適化され

    リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか
  • 第7回 データ処理における並列アルゴリズム[2] | gihyo.jp

    はじめに 前回は、並列システムの性能指標について紹介し、また、データ処理におけるアルゴリズムと、選択処理の並列化方法を紹介しました。今回からは、結合処理の並列化方法について説明します。まずは、結合処理における基的な並列化方法について述べ、次に、ソートマージ結合の具体的な並列アルゴリズムを説明していきます。 結合処理の並列化方法 結合処理は、前回述べたとおり、複数のデータを、当該データを構成するレコード(タプル)における属性値を用いてある条件に基づいて連結することにより、1つのデータにする処理です。簡単のため、以降では、「⁠ある条件」は複数のデータの属性値が同一である、とします。すなわち、結合における最も一般的な方法である等結合を対象として話を進めていきます。また、特に断りがない限り、2つのデータを結合するものとします。 等結合処理における並列化の基的な方法は、次の2つのステップからなり

    第7回 データ処理における並列アルゴリズム[2] | gihyo.jp
  • Hadoopをデータウェアハウスに統合するメリットと、シスコが明かしたIoT戦略を作るフレームワーク[PR]

    Hadoopをデータウェアハウスに統合するメリットと、シスコが明かしたIoT戦略を作るフレームワーク[PR] ビッグデータやIoT(Internet of Things)の登場を背景に、データを保存し活用するためのアーキテクチャはいま大きな変化の途上にあります。 5月25日に開催されたシスコシステムズ主催のイベント「IoT/IoE時代のデータマネージメント Hadoop活用セミナー」では、こうした大規模データ処理がビジネスを変える可能性と、そのためのデータ処理基盤技術について解説されました。 最初に登壇したシスコ コンサルティングサービス シニアパートナー 八子知礼氏は、IoTやIoE(Internet of Everything)の時代にビジネスの変革を支援するシスコのコンサルティング部隊は、お客さまの戦略策定から組織改革までを支援することがミッションであると説明。シスコの製品販売のノル

    Hadoopをデータウェアハウスに統合するメリットと、シスコが明かしたIoT戦略を作るフレームワーク[PR]
  • NTTデータが4000コアのクラスターでSparkを試行、NTTドコモからの要望受け

    写真●2014年7月に東京で開催されたHadoopのイベント「Hadoop Conference Japan 2014」で、Sparkの試行結果について発表するNTTデータ基盤システム事業部 システム方式技術ビジネスユニット OSSプロフェッショナルサービスの土橋昌主任 Hadoopによる分散クラスターを使ってビッグデータをインメモリーで高速処理できるソフト「Spark」。このSparkによるビッグデータ処理の試行結果を2014年7月、NTTデータが発表した(写真)。Sparkに注目しているユーザー企業であるNTTドコモからの要望を受け、NTTデータが実利用に近い形で約200台(4000コア)のクラスターでSparkを評価した。Sparkの実証例は世界的にもまだ少なく、先駆的な事例といえる。 Sparkはインメモリー処理が主体のため、Hadoopで一般的な処理方式である「MapReduc

    NTTデータが4000コアのクラスターでSparkを試行、NTTドコモからの要望受け
  • High-Performance Big Data :: Home

    Overview Welcome to the High-Performance Big Data project created by the Network-Based Computing Laboratory of The Ohio State University. The HiBD packages are being used by more than 365 organizations worldwide in 39 countries (Current Users) to accelerate Big Data applications. As of Jul '24, more than 49,300 downloads have taken place from this project's site. The HiBD project contains the foll

  • HBase on Flash

    HBase on Flash Presentation Transcript Fusion-io Confidential—Copyright © 2013 Fusion-io, Inc. All rights reserved.Fusion-io Confidential—Copyright © 2013 Fusion-io, Inc. All rights reserved.HBase on FlashMatt KennedyHBaseCon June 13, 2013 Switch your database to flashnow. Or you’re doing it wrong.Brian Bulkowski, Aerospike CTO and co-founderJune 10, 2013 2http://highscalability.com/blog/2012/12/1

  • Clouderaが「SQL-on-Hadoop」のImpala 1.0正式版リリース

    Hadoopのディストリビューションベンダとして知られるClouderaは今日、Hadoopのクラスタに対してSQLでの問い合わせを実現するオープンソースソフトウェア「Cloudera Impala」のバージョン1.0を公開しました。製品版は「Cloudera Enterprise RTQ」として販売されます。 Release - Cloudera Ships Impala 1.0: Industry's First Production-Ready SQL-on-Hadoop Solution Clouderaは、Hadoopで構築された大規模な分散データベースに対してSQLで高速に問い合わせが可能になることにより、企業でのデータウェアハウス用途などHadoopでの新たな市場を開拓できるとしています。 MapReduceを使わず独自の分散クエリエンジン Impalaはバッチ処理をベースに

    Clouderaが「SQL-on-Hadoop」のImpala 1.0正式版リリース
  • 日立製作所、バッチ処理を高速化する「かんたんHadoopソリューション」

    日立製作所は17日、ITシステムに不可欠なバッチ処理を高速化するソリューションとして、「かんたんHadoopソリューション for バッチ処理(Asakusa Framework & JP1)」を、4月18日から販売開始すると発表した。 同ソリューションは、高集積のエントリーブレードサーバ「HA8000-bd/BD10」(以下、「HA8000-bd」)と統合システム運用管理「JP1」、効率的なデータの分散処理を実現するHadoop、Hadoopを活用したバッチ処理プログラムを効率的に開発するためのフレームワーク(ソフトウェアツール群)である「Asakusa Framework」などをプレインストールし、初期設定を行った上で提供する。 オープンソースであるHadoopや「Asakusa Framework」を含め、すべて日立グループがサポートサービス(有償)を提供し、導入から運用までをトータ

    日立製作所、バッチ処理を高速化する「かんたんHadoopソリューション」
  • Intel baking Apache Hadoop into silicon for big data, security uses

    Intel baking Apache Hadoop into silicon for big data, security uses Silicon Valley is turning to Hadoop to tackle big data, and Intel is attempting to get involved at ground level through integration on its chips. SAN FRANCISCO -- Not to be left out of the party this week, Intel revealed an Apache Hadoop distribution of its own during an invite-only event on Tuesday morning. See also: Hortonworks

    Intel baking Apache Hadoop into silicon for big data, security uses
  • 世界初! Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通

    PRESS RELEASE 2012年12月5日 富士通株式会社 世界初! Hadoopとの連携を実現したCOBOLNetCOBOL V10.5」を販売開始 並列分散処理により、バッチ処理時間を従来の約18分の1に短縮 当社は、COBOLバッチアプリケーションをApache Hadoop(注1)で並列分散処理し、バッチ処理時間を大幅に短縮する機能を追加したCOBOL開発・運用ソフトウェア「NetCOBOL V10.5」を、日より販売します。 製品は、Hadoopとの連携を実現した世界初(注2)のCOBOL開発・運用ソフトウェアです。「NetCOBOL」で開発したバッチアプリケーションや他社のCOBOLで開発されたバッチアプリケーションを、再コンパイルによりHadoopで並列分散処理できるため、お客様は既存のCOBOLデータやアプリケーションに手を加えることなく、バッチ処理時間を大幅に

    世界初! Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通
  • EMC、「Isilon NAS」でHadoopの分散ファイルシステム|ストレージ|トピックス|Computerworld

    EMC、「Isilon NAS」でHadoopの分散ファイルシステムをサポート 商用Hadoopプラットフォーム「Greenplum」とも併せて“企業向けHadoop”を強化 米国EMCは1月31日、同社のスケールアウト型NAS「Isilon」において、分散ファイルシステムであるHDFS(Hadoop Distributed File System)をネーティブ・サポートすることを発表した。 EMCによれば、Isilon NASの最新版OS「OneFS 6.5」において、従来のNASプロトコル(NFS、CIFS、FTP、HTTP)に加えてHDFSプロトコルをサポートする。スケールアウト型NASでのHDFSのネーティブ・サポートは業界初であると同社は述べている。 今回のサポートにより、Isilon NASに格納したビッグ・データを直接Hadoopで処理することができるようになる。また、Had

  • NTTデータが「Hadoop」戦略の最新動向を米国で披露--富士通とストレージシステム共同開発

    注目が集まるビックデータ分野を支える技術命は、オープンソースの分散処理ソフトHadoopだろう。Hadoopは、Googleが唱える大規模データ処理方式を実装したオープンソースソフトウェアで、テラバイト~ペタバイト級のデータの蓄積・処理を得意とする。IBMはHadoopをベースとした製品をリリースし、オラクルは主要製品ExadataとHadoopのコネクタを発表して連携を推し進めている状況だ。 こうした中、米国ニューヨークで11月8日より2日間「Hadoop World NYC 2011」が開催された。Hadoop Worldは第3回目の開催で、最新事例や技術に関する情報が一同に集まるイベントとして知られている。27カ国から1400名以上が集まり、60を超える講演が繰り広げられた。 このイベントにおいて、NTTデータは「Hadoop's Life in Enterprise Syste

    NTTデータが「Hadoop」戦略の最新動向を米国で披露--富士通とストレージシステム共同開発
  • Gluster Adds Hadoop Support to Storage Offering - SiliconANGLE

  • 米Twitter、リアルタイムデータ処理システム「Storm」をオープンソースで公開 | OSDN Magazine

    Twitterは8月4日、リアルタイムデータ処理システム「Storm」をオープンソースにする計画を発表した。Stormは同社が7月に買収した米BackType Technologyの技術で、データストリームの解析などに利用できるという。 Stormは「リアルタイムデータ処理のHadoop」を標榜する技術で、大量データの分散処理を行うためのクラスタシステム。BackTypeがTwitterに買収される前の6月に発表、オープンソースにする計画を明らかにしていた。 StormJava仮想マシン上で動作し、さまざまなプログラミング言語で行う処理を実装できる。クラスタシステムはクラスタをコントロールする「Nimbus」、実際の処理作業を実行する「Supervisor」、Supervisorを監視・制御する「Zookeeper」から構成され、Supervisorノードが処理を分割してZookeep

    米Twitter、リアルタイムデータ処理システム「Storm」をオープンソースで公開 | OSDN Magazine
  • 第3回 海外におけるHadoop活用事例 | gihyo.jp

    2010年10月12日、ニューヨークにてHadoopの祭典「Hadoop World 2010 NYC」が開催されました。このイベントには日からもNTTデータとリクルートが参加し、それぞれの技術開発・検証などの取り組みや今後の展望などを発表しました。今回は、Hadoop World 2010 NYCで発表された事例のうち以下の3つを取り上げ、海外におけるHadoopの活用事例を紹介します。 米国陸軍におけるHadoopの活用 General Electric社における感性分析事例 シカゴ・マーカンタイル取引所における事例 1.米国陸軍におけるHadoopの活用 最初の事例は米国陸軍でのHadoopの活用事例です。大量のデータの扱いに悩んでいるのは企業だけではありません。米国陸軍もまた、膨大なデータからいかにして有益な情報を抽出するかという課題を抱えていました。彼らは時代とともにより粒度の

    第3回 海外におけるHadoop活用事例 | gihyo.jp