タグ

ブックマーク / gihyo.jp (14)

  • Hadoop, Sparkその他分散処理フレームワークの2018年を占う | gihyo.jp

    あけましておめでとうございます。 例年、Apache HadoopやApache Sparkを中心に並列分散処理ミドルウェアの動向や展望についてご紹介しています。 今年は NTTデータに所属する 岩崎正剛(Hadoopコミッタ⁠)⁠、猿田浩輔(Sparkコミッタ⁠)⁠、鯵坂明(Hadoopコミッタ/PMC)の3名でディスカッションした内容を元にお伝えします。 ディスカッション中の岩崎正剛氏 Hadoop 3.0リリース 昨年の新春特別企画では、「⁠2017年はHadoop 3.0がリリースされる年になるはずです。」と書きましたが、Hadoop 3.0.0が2017年12月13日にリリースされました。2017年の間に3.0.0-alpha2、3.0.0-alpha3、3.0.0-alpha4、3.0.0-beta1とリリースを重ね、なんとか2017年内に間に合った格好です。 2016年にリリ

    Hadoop, Sparkその他分散処理フレームワークの2018年を占う | gihyo.jp
  • スケールするメッセージングシステムを構築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土管"づくり | gihyo.jp

    スケールするメッセージングシステムを構築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土管"づくり クラウドコンピューティングが普及し、多くの企業が日常的に膨大で多様なデータを扱うようになるにともない、ITの世界では"スケール"という言葉がごく一般的に使われるようになりました。ニーズに応じて利用するコンピューティングリソースを柔軟に増減し、処理を分散してシステム全体の稼働力を上げる"スケール"というしくみは、いまや"あって当然"の概念となり、加えてここ数年はスケールにおいてもよりリアルタイムに近いパフォーマンスが求められるようになっています。 これはサーバやストレージといったハードウェアリソースだけではなく、データベースやミドルウェアにおいても同様で、スケールしやすい技術としてHadoopやPostgreSQLといったオープンソースプロダクトが選ばれるケースが飛躍的に増え

    スケールするメッセージングシステムを構築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土管"づくり | gihyo.jp
  • エンジニアがフリーランスで年収1000万円になるための稼ぎ方

    2016年11月29日紙版発売 2016年11月22日電子版発売 大和賢一郎 著 四六判/200ページ 定価1,848円(体1,680円+税10%) ISBN 978-4-7741-8579-8 ただいま弊社在庫はございません。 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto このの概要 会社員時代は残業代込みでの年収600万円だったが,所属14年目で配属先の事業所が突然閉鎖,飛ばされた部署では仕事がなく孤立し,辞めざるを得ない状況に追い込まれ,退職…… ―― それから3年後にフリーランスエンジニアとして年収1000万円を稼げるようになった著者はどのような考え,行動しているか? 会社に属さずエンジニアとして働くことのリアルとノウハウを,

    エンジニアがフリーランスで年収1000万円になるための稼ぎ方
    wyukawa
    wyukawa 2016/11/24
    日立に勤続14年で肩書きは主任。残業代込みで 年収600万円だったけど仕事がなくなり退職。そして「フリーランスでも常駐案件なら会社員と変わらない」か。うーみゅ。
  • 第6回 Hiveでボトルネックとなってきたメタデータ、HBaseを使ってレイテンシの改善に挑む ―「Hadoop Summit 2016 San Jose」から | gihyo.jp

    IT Cutting Edge ─世界を変えるテクノロジの最前線 第6回Hiveでボトルネックとなってきたメタデータ、HBaseを使ってレイテンシの改善に挑む ―「Hadoop Summit 2016 San Jose」から 2016年6/28~6/30(米国時間)の3日間に渡って米サンノゼで開催された「Hadoop Summit 2016 San Jose」(⁠主催: Hortornworks/Yahoo!)では、2016年のHadoopトレンドを紹介する数多くの技術/事例セッションが行われました。稿ではそのひとつ、Hortonwokrsによるセッション「hive HBase Metastore - Improving Hive with a Big Data Metadata Storage」をもとに、HiveのメタデータをHBaseでストアすることでHiveの低レイテンシ化を図る技

    第6回 Hiveでボトルネックとなってきたメタデータ、HBaseを使ってレイテンシの改善に挑む ―「Hadoop Summit 2016 San Jose」から | gihyo.jp
    wyukawa
    wyukawa 2016/07/20
    なんか面倒くさそうな印象。。。>HBase MetaStore
  • 10周年を迎えたHadoop、データ分析の主戦場はクラウドとデータセンターの連携に ―「Hadoop Summit 2016 San Jose」レポート | gihyo.jp

    10周年を迎えたHadoop、データ分析の主戦場はクラウドとデータセンターの連携に ―「Hadoop Summit 2016 San Jose」レポート 6月28日~30日(米国時間)の3日間に渡って米サンノゼで開催された「Hadoop Summit 2016 San Jose」には、世界36ヵ国から約4000名が参加し、Hadoop誕生から10周年を迎えたアニバーサリーイヤーにふさわしい盛況を見せていました。Hadoopのユーザや開発者、そしてHadoopビジネスを展開する企業が世界中から集まる現場に居合わせると、あらためてHadoopがデータ分析プラットフォームのデファクトスタンダードとして、確固たる地位を獲得したことを強く実感させられます。 筆者は昨年もカンファレンスに参加しましたが、変化のスピードが速いIT業界を象徴するかのように、昨年にはなかったいくつかのトレンドがHadoop

    10周年を迎えたHadoop、データ分析の主戦場はクラウドとデータセンターの連携に ―「Hadoop Summit 2016 San Jose」レポート | gihyo.jp
    wyukawa
    wyukawa 2016/07/05
    へー>“なお,2016年10月には東京ではじめてのHadoop Summitが開催されることが決定しています。”
  • 第18回 Impalaの設計と実装[2] | gihyo.jp

    はじめに 今回は、ImpalaのSQL処理の高速化において重要な役割を占めるクエリ処理について説明します。 Impalaのクエリ処理の特徴 Impalaは、MapReduceやSparkをはじめとする既存の手続き型のデータ処理エンジンを使用せず、アドホックなSQLクエリの処理の高効率化に焦点を置いた設計と実装が特徴です。たとえば、結合方法を見てみると、MapやReduceもしくはMapReduceジョブなどのブロッキングオペレータ(第16回)を組み合わせていく処理エンジンにおいては、Impalaにおけるパイプライン結合処理などを実現することは必ずしも容易ではありません(第8回「Impala/Prestoにおける結合処理」⁠)⁠。 また、MapReduceやSparkでは中間データをディスクに書き込むことにより高い耐障害性を実現しますが、Impalaでは耐障害性を多少犠牲にしてメモリ上で処理

    第18回 Impalaの設計と実装[2] | gihyo.jp
    wyukawa
    wyukawa 2016/03/26
    prestoって統計情報無いよな
  • 第15回 計算機クラスタのためのリソース管理基盤 Hadoop YARN | gihyo.jp

    はじめに 前回は、MapReduceとその実装であるApache Hadoopの概要について説明しました。今回は、Apache Hadoopにおいて計算機クラスタのリソース管理を行うYARNについて解説します。 多種多様な処理系の登場 Hadoopの登場を1つの契機として、コモディティな計算機を複数台用いた計算機クラスタ上でデータ処理を行うことが広く普及しつつあります。たとえば、Hadoop MapReduceと比べてアプリケーションの記述性が柔軟であり、より高効率な実行が可能であるApache Spark、Apache Tez、Apache Flinkをはじめとし、低い遅延で実行可能なApache Impala、Facebook Presto、Apache Drill、また、大量のストリームデータを低い遅延で処理可能なデータ処理系であるApache StormTwitter Heron

    第15回 計算機クラスタのためのリソース管理基盤 Hadoop YARN | gihyo.jp
  • 第14回 Hadoopの設計と実装~並列データ処理フレームワークHadoop MapReduce[2] | gihyo.jp

    はじめに 今回は、Hadoopの構成要素である並列データ処理フレームワークMapReduceにおける実装アーキテクチャの特徴について解説します。加えて、類似のシステムである並列データベースを取り上げ、想定するワークロードなどの違いについて解説します。 Apache Hadoopの実装における特徴 現在、Apache Hadoopは、MapReduceの一実装であるHadoop MapReduceと、Googleの分散ファイルシステムGFSのクローンであるHadoop Distributed File System(HDFS⁠)⁠、そしてリソース管理を行うYet Another Resource Negotiator(YARN)から構成されます。ここでは、それぞれのコンポーネント間に存在するアーキテクチャの特徴と、各コンポーネントの実装について述べます。 これら3つのコンポーネントは、すべて

    第14回 Hadoopの設計と実装~並列データ処理フレームワークHadoop MapReduce[2] | gihyo.jp
    wyukawa
    wyukawa 2015/12/22
    良い笑顔だ
  • 第9回[最終回] データパイプラインのためのワークフロー管理 | gihyo.jp

    KPIや応用KPIが決まり、実際に、毎日の運用の中で定期的にデータを更新して、可視化するためには、一連の処理を自動化する必要があります。今回は、データパイプラインを扱うためのワークフロー管理ツールを紹介していきます。 データパイプラインとワークフロー管理 データパイプライン (⁠以下、パイプライン)とは、データ処理を行なう小さなタスク(1回のファイルコピーや、SQLの実行など)を順次実行することにより、最終的に求める結果を得るための一連のプロセスを指します。狭義には、単体のシステム内で完結するパイプラインを指します(SparkやGoogle Cloud Dataflow、など⁠)⁠。 また、広義には、複数のシステムを組み合わせて大きなパイプラインを構成することもあります(MySQLから取り出したデータをRedshiftで集計する、など⁠)⁠。今回、取り上げるパイプラインとは、広義のパイ

    第9回[最終回] データパイプラインのためのワークフロー管理 | gihyo.jp
    wyukawa
    wyukawa 2015/12/07
    タスクの並列実行って実はあんまりイメージわかないな。その辺はhadoop任せだし。
  • 第1回 ビッグデータ分析を始めよう | gihyo.jp

    ビッグデータ分析エンジンを比較してみると、ビッグデータを処理する一般的なインターフェースとしてSQLが提供されていることが主となっています。こうして見ると、最近流行っているビッグデータを使った分析とは、SQLによる分析が主となっていることがわかります。 さらに、他の機能を見てみると、スケジューリングや依存関係を考慮したジョブの実行、データの可視化などは分析エンジン自体は備えておらず、別途用意する利用必要があります。 このように考えてみると、以下の点が気になってきます。 ビッグデータ分析基盤で何をできるようにするのか? ビッグデータ分析基盤と考えたときに他にどういったツールが必要になるのか? SQLによる集計を基にした分析ではどういったことができるのか? 稿では、ビッグデータ分析基盤を構築するために必要な分析エンジンではなく、主にその周辺のエコシステムについてを中心に紹介し、ビッグデータ分

    第1回 ビッグデータ分析を始めよう | gihyo.jp
  • 第4回 データ処理の方法 | gihyo.jp

    はじめに 前回までは、(⁠並列)データ処理の説明をするために必要な言葉の定義や整理をしてきました。いよいよこれからは、データ処理自体について触れていきます。今回は、アプリケーション開発者の視点から見るデータ処理にはどのようなものがあり、その観点において、Hadoopがどのようなものであるか、また、Hadoopがどのようにデータ処理を構築しているかについて、その概要を説明します。 手続き型言語によるデータ処理と宣言型言語によるデータ処理 データ処理は、データ処理を行うアプリケーション開発者(ユーザ)の視点から見ると、 手続き型言語によるデータ処理 宣言型言語によるデータ処理 の2つに大別することができます。 手続き型言語によるデータ処理は、ユーザがプログラミング言語等を用いて行うデータ処理です。たとえば、CやPerlなどを用いて行うデータ処理や、汎用機においてCOBOLなどを用いた集計処理な

    第4回 データ処理の方法 | gihyo.jp
  • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

    はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

    第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
  • チーム開発実践入門──共同作業を円滑に行うツール・メソッド

    この書籍に関連する記事があります! はじめに 書は「チーム開発実践入門」です。読者のみなさんの中にはよくご存じの方も多いかとは思いますが,チーム開発というのは複雑で難しいものです。 チーム開発を円滑に行うには 誌の読者の中にソフトウェアやサービスの開発を仕事にしている方もいるかと思います。 第1章 チーム開発とは 1.1 1人だけでも開発はできる 1.2 チーム開発で直面する課題 1.3 どのように課題に立ち向かうか 1.4 書の構成 第2章:ケーススタディ 第3~5章:基礎的なプラクティス 第6~7章:継続的デリバリーとリグレッションテスト 1.5 書を読む前の注意点 最適なプラクティスはケースバイケース どのツールを使うかに正解はない 第2章 チーム開発で起きる問題 2.1 ケーススタディの前提 プロジェクトの前提条件 2.2 ケーススタディ(1日目) 問題1:重要なメールが多

    チーム開発実践入門──共同作業を円滑に行うツール・メソッド
  • jquery.jsを読み解く:第1回 jQueryライブラリ(1~171行目)|gihyo.jp … 技術評論社

    はじめに jQueryとは、John Resigによって開発され、最近非常に注目を集めている Javascriptライブラリです。 JavaScriptHTMLの対話を劇的に改善し、Ajaxなどにより複雑化してきているWebアプリケーション構築に必要な処理を非常に簡潔に書くことができます。また、ブラウザの種類やバージョンによる違いも吸収してくれるため、プログラマの作業量も減らしてくれます。 連載では、jQueryライブラリのコードを読みながら、実装として中で何が行われているのかを見ていこうと思います。 想定している読者は、jQueryライブラリをただ使うだけでなく、やっていることを理解したいという方、使われているコードを応用して自分なりの改造をしてみたい方、新たなプラグインを開発したいという方などです。 今回の連載では執筆開始時点の最新版であるバージョン1.2.2を対象としています。説

    jquery.jsを読み解く:第1回 jQueryライブラリ(1~171行目)|gihyo.jp … 技術評論社
    wyukawa
    wyukawa 2009/02/15
  • 1