タグ

Hadoopに関するdecoy2004のブックマーク (29)

  • 第21回 Sparkの設計と実装[2]~Sparkにおけるデータ共有の仕組みと耐障害性の実現方法 | gihyo.jp

    はじめに 今回は、Sparkにおいて複数のジョブでデータを共有する仕組みと、耐障害性を実現する方法を説明します。 複数ジョブにおけるデータ共有の方法 Sparkは複数のジョブでデータを共有するために、RDDを永続化する機能を有します。いったんRDDが永続化(永続化RDD)されると、永続化RDDを利用するジョブにおいては、RDDの構成要素のデータを再度外部のストレージなどから読み出す必要はなく、また、読み出したデータから当該永続化RDDを生成するためのmap()やfilter()などの呼び出しからなる一連の処理を省略することができます(図1⁠)⁠。 図1 復数のジョブからの永続化RDDの共有 永続化されたRDDは、当該RDDを最初に処理するジョブを実行する際、パーティション単位でそれぞれのRDDを処理する計算機上に永続化されます。永続化先としては、おもに計算機のメモリ(キャッシュ)と二次記憶

    第21回 Sparkの設計と実装[2]~Sparkにおけるデータ共有の仕組みと耐障害性の実現方法 | gihyo.jp
  • グーグル、HadoopとSpark向け管理サービス「Cloud Dataproc」のベータ版を公開

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます GoogleGoogle Cloud Platformを利用した新しいクラウドサービス「Cloud Dataproc」のベータ版を発表した。「Apache Hadoop」および「Apache Spark」を利用したデータ分析を簡素化するという。 Cloud Dataprocはデータクラスタ管理を自動化したいというオープンソース開発者向けのサービスとなる。 Google Cloud PlatformのプロダクトマネージャーJames Malone氏は、このサービスを発表したブログ記事で、「Cloud Dataproc自動化によりクラスタを迅速に作成し、容易に管理することができる。不要なときにクラスタをオフにできるため、コストを削減できる

    グーグル、HadoopとSpark向け管理サービス「Cloud Dataproc」のベータ版を公開
  • Sparkを用いたビッグデータ解析 〜 前編 〜

    QCon Tokyo 2015での発表資料です。 「Apache Sparkがデータサイエンティストの次世代分析基盤となる」というテーマで発表しました。 前編はこちら→http://www.slideshare.net/x1ichi/spark-47265009?qid=75406dab-5016-4a0e-ba9a-772265434480

    Sparkを用いたビッグデータ解析 〜 前編 〜
  • Treasure Dataを支える(中の人に必要な)技術 - myui's memo

    Treasure Data(以下、TD)に入社して早2週間が経ちました。 入社してから、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*1でお世話になったのですが、いつの間にかTreasure Dataを支える人になっていたんですね*2。 Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ) 作者: 西田圭介出版社/メーカー: 技術評論社発売日: 2008/03/28メディア: 単行(ソフトカバー)購入: 47人 クリック: 1,166回この商品を含むブログ (374件) を見る TDではおかげさまで結構なペースでお客さんが増えていて事業規模拡大に備えて幅広い職種で人材募集中です。今回はTDのバッ

    Treasure Dataを支える(中の人に必要な)技術 - myui's memo
    decoy2004
    decoy2004 2015/04/16
    『Githubにアカウントもないって人はちょっと文化的にも合わないかもしれません。』 羨ましい
  • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

    はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

    第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
  • NoSQL「HBase」はIoTにも最適--柔軟なスキーマでデータ構造の変更に対応

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます HBase登場の背景 2月24日、オープンソースソフトウェア(OSS)プロジェクト支援団体Apache Software Foundation (ASF) は「Apache HBase 1.0」のリリースを発表しました。HBaseの開発が開始されてから約8年、数々の機能強化と安定性向上のための改良を経て、成熟した製品として一つのマイルストーンに達したことが合意された結果です。第2回では、このHBaseについて掘り下げていきます。 HBaseは、ASFプロジェクトとして開発されているOSSのNoSQLデータベースです。同じくApacheプロジェクトの分散データ処理基盤として開発されている「Apache Hadoop」上で動作し、分散型の

    NoSQL「HBase」はIoTにも最適--柔軟なスキーマでデータ構造の変更に対応
  • 分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)

    ■オープンソースカンファレンス 2015 Tokyo/Spring 講演資料(2015/02/28) 『分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向』 株式会社NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス 吉田 耕陽Read less

    分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講演資料)
  • 1日が1秒増える「うるう秒」を2015年に追加決定、うるう秒バグを回避できるのか?

    By Chris Halderman 1日の長さは通常24時間ですが、2015年7月1日はうるう秒(閏秒)が挿入されることで通常より1秒長い「24時間1秒」になります。うるう秒とは、現行の協定世界時(UTC)と地球の自転のズレを調整するために追加・削除される時間のことで、2012年7月1日に実施された際にはインターネット上でうるう秒バグが発生しました。 INTERNATIONAL EARTH ROTATION AND REFERENCE SYSTEMS SERVICE(IERS) http://hpiers.obspm.fr/iers/bul/bulc/bulletinc.dat フランスのパリに部を置く国際地球回転・基準系事業(IERS)は、「うるう秒」を2015年6月30日(世界標準時)に実施することを発表しました。これにより2015年6月30日は23時59分59秒の後に23時59分

    1日が1秒増える「うるう秒」を2015年に追加決定、うるう秒バグを回避できるのか?
  • Hadoop上のアナリティクスを実現する「HP Vertica for SQL on Hadoop」発表

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます Hewlett-Packard(HP)は「HP Vertica for SQL on Hadoop」を擁し、エンタープライズSQLデータアナリティクスにHadoopの息吹を吹き込む先鋒を務めようとしている。 HPによると、Vertica for SQL on HadoopはHadoop用のアナリティクスプラットフォームとして、SQLベースのクエリ機能を、HPのサポートおよびサービスと組み合わせることで、大規模な環境でも驚異的なパフォーマンスを発揮するという。同社は、エンジンがデータ探索の複雑性を解消し、膨大な量の非構造化データをデータレイクに格納する作業を効率化し、HDFS(Hadoop Distributed File System

    Hadoop上のアナリティクスを実現する「HP Vertica for SQL on Hadoop」発表
  • 日本オラクル、HadoopにSQLでアクセスできるビッグデータ分析基盤ソフト「Oracle Big Data SQL」を発表

    発表にあたり、日オラクルの代表執行役社長 兼 CEOの杉原博茂氏は、「オラクルでは、いろいろなモノがクラウドでつながり、データ利用が爆発的に増える社会をModern Cyber Societyと呼んでいる。クラウド時代はビッグデータ活用が企業の生命線になる。新製品で、Modern Cyber Societyの新たなビジネス価値創出を実現する。ビッグデータ市場でNo.1を獲得したい」と、新製品の位置づけを説明した。 製品紹介を行った専務執行役員データベース事業統括 三澤智光氏によると、Oracle Big Data SQLは「ひとことで言うと、Oracleが取り扱ってきたリレーショナルなファイルシステムの配下にNoSQL、Hadoopのファイルシステムを置き、構造化データと非構造化データのカベを取り払って一元管理できるようにしたもの」だ。 ポイントは大きく4つあるという。1つは、これまでO

    日本オラクル、HadoopにSQLでアクセスできるビッグデータ分析基盤ソフト「Oracle Big Data SQL」を発表
    decoy2004
    decoy2004 2014/09/05
    『構造化、非構造化データを透過的に分析できるようにしたことで超大規模DWHの構築が可能になったこと』
  • Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する

    Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する:転換期を迎えるHadoop(2/2 ページ) Hadoopが一般化するために、足りないこと ここまでを執筆していて、あらためて思うのは、「やはりHadoopはややこしい」、ということです。 Hadoopはあまりにも自由です。それはアプリケーションの一切入っていない、LinuxWindowsを想像すると良いかもしれません。もっと古いことを言うならば、MS-DOS時代のパソコンを思い出してみると良いでしょう。 プログラミングを行うスキルさえあれば、どんな処理だって実現できるのですが、それがなければ何もできません。いくらプログラムを書けても、何がしたいのか明確な目的がなければ、やはりどうすることもできません。Hadoopは、まさにそういう環境なのです。 メールをやりとりする、Webを見る、音楽を再生する、プ

    Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
    decoy2004
    decoy2004 2014/08/31
    『もし、HadoopがRDBMSとして使えるならば、そこには利用価値があるでしょうか。』 RDB では解決できないことがあるから Hadoop を使っているのでは? わざわざ RDB に戻る意味あるの?
  • 日本よ、これが2014年のHadoopだ!─「Hadoop Conference Japan 2014」基調講演レポート | gihyo.jp

    よ、これが2014年のHadoopだ!─「Hadoop Conference Japan 2014」基調講演レポート 7月8日、東京・ベルサール汐留において「Hadoop Conference Japan 2014(主催: 日Hadoopユーザ会⁠)⁠」が開催されました。2009年の初開催以来、今回で5回目となる同カンファレンスですが、今回の参加登録者数約1,300名のうち、65%(約840名)が初参加とのこと。「⁠Hadoopの裾野の拡がりを確実に感じる」(⁠NTTデータ 濱野賢一朗氏)との言葉通り、HadoopもHadoopユーザもこの5年で大きく変化を遂げていることを示したカンファレンスとなりました。 基調講演会場の模様。今回のテーマは「和風⁠」⁠、来場者には扇子が配られ、登壇者は障子をバックにはっぴ姿で講演を行いました 稿では基調講演の内容をもとに、最初に公開されてから10

    日本よ、これが2014年のHadoopだ!─「Hadoop Conference Japan 2014」基調講演レポート | gihyo.jp
    decoy2004
    decoy2004 2014/08/25
    『最近,MapReduce以外のアルゴリズムを動かしていこうとする流れが顕著になっており,その象徴的存在が新フレームワークのYARNであると濱野氏は言います。』
  • Hadoop Conference Japan 2014 #hcj2014 でImpalaがPrestoより19倍速いという話をしてきた - 科学と非科学の迷宮

    Evolution of Impala #hcj2014 from Cloudera Japan タイトルとスライドの通りです。 Hadoop Conference Japan を運営された皆様、当にお疲れさまでした。 また、私のセッションに参加して話を聞いていただいた皆様、ありがとうございました。 朝のキーノートで「使用しているコンポーネント」で Impala がランクインしていて実は結構驚きました。まだまだ普及していないと思っていましたけど、意外と使われているようでうれしいです。 (後 Hue がランクインしているのにも驚いた) 今回は他のSQLエンジンのセッションの間に挟まれての講演だったので、これは気を抜けないなと思い、結構頑張ってスライドを作りました。 やっぱり調べてみると Impala はとても面白くて、機能の細かい部分などを見て新たな発見もたくさんすることができました。 I

    Hadoop Conference Japan 2014 #hcj2014 でImpalaがPrestoより19倍速いという話をしてきた - 科学と非科学の迷宮
    decoy2004
    decoy2004 2014/08/25
    『Impala が爆速なのは疑いようのない事実』
  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

    decoy2004
    decoy2004 2014/08/25
    『PrestoやImpalaやApache Drillは,Redshift/BigQueryと違ってMPPデータベースではなくてMPPクエリエンジンなので,そこに違いがある.』
  • Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する

    ビッグデータの申し子のように騒がれた「Hadoop」。以前ほどメディアを騒がせてはおらず、それほど広範囲に普及したようにも思えないものの、いまだ注目されるにふさわしい存在なのは間違いありません。しかし、今日の、あるいはこれからのHadoopがどのように進化しているのかを知れば、Hadoopを諦めていた方々も再度注目しようと思われるのではないでしょうか。 そもそもHadoopとは……? の禅問答っぽさ 突然ですが、「Hadoopとは何ですか?」と説明を求められたら、皆さんならどう答えますか? Q.「Hadoopとは何ですか?」 Ans. 複数のサーバーで構成され、MapReduceと呼ばれる仕組みで分散処理を行う環境であること データも共有ストレージではなく、各サーバーの内蔵ディスクに分散して格納されること HDFSと呼ばれる独自のファイルシステムがあり、データの分散については自動的に行われ

    Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
    decoy2004
    decoy2004 2014/08/24
    『IBM InfoSphere BigInsights(IBMのHadoop製品)の構築済み環境を、VMWareイメージとして提供するものです。本番環境としては利用してはいけないなど、いくらかライセンス上の制約はありますが、費用は一切発生せず』
  • 電子書籍『実践 機械学習』の無料ダウンロードが可能に!

    機械学習の基礎について解説した電子書籍『実践 機械学習 ― レコメンデーションにおけるイノベーション』がHadoop情報サイト「Hadoop Times」から無料でダウンロードできます。 著者は『Mahoutイン・アクション』の著作でもお馴染みのTed DunningとEllen Friedman。Apache Mahoutプロジェクトプロジェクトマネジメント委員やコミッタとして活躍しながら、MapR社でチーフアプリケーションアーキテクトやコンサルタントを務めている両氏が、機械学習の初学者のために書き下ろしたの一冊です。50ページほどの手軽なボリュームながら、レコメンデーションを洗練させるための重要なエッセンスが詰まっています。 機械学習とレコメンデーションについて学習したいけれど、どこから始めればよいか迷っているという方は、手始めに書を読むところから始めてみてはいかがでしょうか。 H

    電子書籍『実践 機械学習』の無料ダウンロードが可能に!
  • Apacheソフトウェア財団、分散並列処理プログラミングフレームワーク「Apache Hadoop 2.5.0」を公開

    Apache Software Foundationは米国時間8月11日、分散並列処理プログラミングフレームワーク「Apache Hadoop」のバージョン2.5.0を提供開始した。 リリースの主な機能や改良点は以下の通り。 HTTPプロキシサーバ使用時の認証機能の向上 「Graphite」に直接書き込むことができる新たなHadoop Metricsシンク Hadoop互換ファイルシステム(HCFS)に関する仕様化 POSIX形式の拡張ファイル属性のサポート WebHDFS API経由でfsimageを閲覧するためのOfflineImageViewer NFSゲートウェイに対するサポートの向上とバグ修正 HDFSデーモンを操作するためのウェブユーザーインタフェース(HTML5とJavaScript)の改良 YARNのREST APIによる、アプリケーションのサブミット(実行)およびキル(

    Apacheソフトウェア財団、分散並列処理プログラミングフレームワーク「Apache Hadoop 2.5.0」を公開
  • Jenkinsとhadoopを利用した継続的データ解析環境の構築

    2. Meta Information • 2006.4 – 2012.3 – Keio University • Artificial Intelligence, Semantic Web, Ontology Engineering • 2011.2 – 2012.3 – CTO at Trippiece, Inc. • Software Engineering • 2012.4 – – Engineer at adingo, Inc. • Data Analysis, Operation Engineering twitter: @suzu_v http://blog.kentasuzuki.net

    Jenkinsとhadoopを利用した継続的データ解析環境の構築
  • Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014

    Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014 大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflow」を使っていることが、Google I/O 2014の基調講演で明らかにされました。 GoogleのシニアバイスプレジデントUrs Hölzle氏は、「エクサバイトのスケールまで扱え、パイプライン処理を記述しやすく最適化もしてくれる。それにバッチもリアルタイム分析も同じコードで記述できる」と、Cloud Dataflowの特長を説明します。 Google I/Oの

    Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」。Google I/O 2014
    decoy2004
    decoy2004 2014/06/27
    『プログラマが分析処理のプログラムを書き、Cloud Dataflowに送ると、最適化、展開、スケジューリング、モニタリングをCloud Dataflowが行ってくれる。』
  • グーグル、MapReduce後継のビッグデータ処理サービス「Cloud Dataflow」を発表

    グーグルは2014年6月25日(米国時間)、ビッグデータ処理のクラウドサービスである「Google Cloud Dataflow」を発表した。グーグルの並列データ処理技術MapReduce」の後継技術をベースにしたサービスで、バッチ処理だけでなくストリーム処理やリアルタイム処理を実行できることが特徴。25日から同社が米国サンフランシスコ市で開く開発者会議「Google I/O 2014」で発表した。 今回の発表で最も興味深いのは、基調講演に登壇した同社のウルス・ヘルツル上級副社長が「我々は既に、社内でMapReduceをほとんど使っていない」と明らかにしたことだ。MapReduceはグーグルが2004年に論文発表した技術で、開発からすでに10年以上を経過している。グーグルは近年、並列パイプライン処理技術である「FlumeJava」や大規模ストリーム処理技術である「MillWheel」な

    グーグル、MapReduce後継のビッグデータ処理サービス「Cloud Dataflow」を発表
    decoy2004
    decoy2004 2014/06/26
    『並列パイプライン処理技術である「FlumeJava」や大規模ストリーム処理技術である「MillWheel」など新しい技術を次々と開発しており、今回発表したGoogle Cloud Dataflowも、FlumeJavaとMillWheelがベースになっているという。』