ちょっと理解に自信がないな�という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行われたセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 (本記事は「日々進化するHadoop。これまでのおさらいと最近の動向(前編)」の続きです) Hadoopの1.0系と2.0系 Hadoopの開発はかなり活発に進んでいます。 Hadoopでいちばん分からないといわれるのがバージョンで、これは以前からHadoopに接している私たちでもよく分からないくらいです。 Hadoopのバージョンには大きく二系統あって、少し前まで0.20系と呼ばれていたもので、これが現行は1.0系と呼ばれています。もうひとつが0.21、0.22、0.23系と呼ばれていたもの、これがいま2.0系と呼ばれています。 対外的には
(2013/04/02追記 see: http://d.hatena.ne.jp/tagomoris/20130402/1364898063 ) まだ完成度がいまいちだからなーと思ってエントリ書いてなかったんだけどLTでしゃべっちゃったので、ちゃんと書いておく。 Hiveにクエリを発行して結果を確認するためのWebアプリケーションを社内用途で作ってるんだけど、普通に他でも使えると思うので公開してあります。 tagomoris/shib · GitHub シブ と読みます。 セットアップ方法はドキュメントを参照のこと。起動してブラウザでアクセスするとこんな画面が出てくる。 使いかたは見ればわかる、と思う。たぶん。クエリは参照専用(SELECTのみ)。 __KEY__ とか __KEY1__ とかがプレースホルダですよってくらいかな。エディタ内でプレースホルダを書くとプレースホルダを置換する値
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
ヴイエムウェア、クラウドでのHadoop導入/管理を支援するオープンソース・プロジェクト「Serengeti」を発表 Hadoopコンポーネントの「仮想化対応」でApache Hadoopコミュニティと共同作業 2012/06/14 米国VMwareは6月13日、プライベートおよびパブリック・クラウドで「Apache Hadoop」を実行するための新たなオープンソース・プロジェクト「Serengeti」を発表した。仮想およびクラウド環境におけるHadoopの迅速な導入/管理/拡張を支援するほか、Apache Hadoopコミュニティとの共同作業により、Hadoopコンポーネントの「仮想化対応」を進める。 VMwareでは、オープンソースの大規模分散処理基盤であるHadoopのノードを物理的なインフラ基盤から切り離すことにより、迅速な導入、高い可用性、最適なリソース使用率、柔軟性、セキュアな
NoSQLの代表的なデータベースであるCassandraの新バージョン「Cassandra 1.1」がリリースされたと、The Apache Software Foundationが発表しました。2011年10月に最初の正式バージョンであるCassandra 1.0がリリースされてから半年で、Cassandra 1.1の登場となります。 The Apache Software Foundation Announces Apache Cassandra™ v1.1 : The Apache Software Foundation Blog CassandraはオープンソースによるNoSQLデータベースで、分散処理に対応したスケーラブルな構造を備え、単一障害点(Single Point of Failer:SPOF)がなく、ノードを追加していくことで自動的に性能が向上していくという特徴を備えて
ホーム>お知らせ>ノーチラス・テクノロジーズが株式会社アンデルセンサービスの原価計算の基幹バッチ処理をAsakusa Framework™/Hadoopにて1/12の時間に短縮 アマゾン ウェブ サ―ビス®のAmazon® VPCを利用し、インフラ構築・運用コストを大幅削減 ノーチラス・テクノロジーズが株式会社アンデルセンサービスの原価計算の基幹バッチ処理をAsakusa Framework™/Hadoopにて1/12の時間に短縮 アマゾン ウェブ サ―ビス®のAmazon® VPCを利用し、インフラ構築・運用コストを大幅削減 2012年05月07日 PDF版のダウンロードはこちら 株式会社ノーチラス・テクノロジーズ(以下、ノーチラス)は、当社が開発したAsakusa Framework™ (*1) (以下、「Asakusa」)を利用して株式会社アンデルセンサービス(以下、アンデルセンサー
1. Flume について (“Flume Reliable Distributed Streaming Log Collection” by Jonathan Hsieh, Henry Robinson, Patrick Hunt ; http ://www.cloudera.com/resource/flume-reliable-distributed-streaming-log-collection-hsieh-robinson-hunt の非公式かつ不完全な日本語訳です。 ) Infoscience 永江 哲朗 2. シナリオ ・シチュエーション : - ログを生成するサービスがデータセンターに数百個ある。 そのサービス群は解析したいログを大量に生成する。 - 大量のデータを処理する Hadoop システムを使っている。 ・問題 : - すべてのログを Hadoop
オープン系の歴史は、基本的に汎用機との戦いでした。個人的にも自分の戦いも、わりとまじめに汎用機との戦いでした。Linux? おもちゃですね。Java? 飲めるの?Object指向? 品質高いの? ・・・まぁこんな感じでしたね。確かにLinuxはもはや標準になりました。Javaでの開発は普通になりました。Object指向以外の開発はまぁ普通にないですね。・・・しかし、残念ながら基幹バッチは未だに汎用機です。汎用機は未だに現役であり、基幹処理の根っこは、いまだ汎用機で動いています。信頼性は突出しているし、パフォーマンスもバッチ処理に関しては依然として最強だと言えるでしょう。新人COBOLな人のバッチが、ハイパーなOracle使いのSQLバッチを軽く凌駕する事は、まだ普通にあります。・・・なぜか? 多重度が違いすぎますね。 汎用機はハードウェアからOSレベルまですべて、多重度が上がる事を前提に処
どうも,実は今年から開発チームにjoinしていた中川です.可愛い犬の写真がなかったので,可愛いマスコットの画像を貼っておきます. 最近MapReduceとかその実装であるHadoopとかをよく聞くようになりました.これはつまり,それだけ大量のデータをなんとか処理したいという要望があるからだと思います.しかし当たり前ですが,MapReduceは銀の弾丸ではありません. ということで,最近気になっているMapReduceとは違ったアプローチを取っている分散処理基盤について,社内のTechTalkで話した内容を簡単にまとめて紹介したいと思います. Bulk Sychronous Parallel このアルゴリズム自体は1990年に誕生したものです.長いのでBSPと書きます.さて,グラフから最短経路を求める時,MapReduceは使えるでしょうか?このような論文が出るくらいですから出来ないことはあ
This document discusses Hadoop and its ecosystem. It covers Hadoop distributions like Cloudera and Amazon's Elastic MapReduce service. It also discusses running SQL-like queries using MapReduce and moving data between MySQL and Hadoop. Key algorithms like map and reduce functions are explained through examples. Different Hadoop deployment options on EC2 like standalone, Cloudera, and EMR are also
このドメインは お名前.com から取得されました。 お名前.com は GMOインターネット(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 ※1 日本のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 ※1 レジストラ「GMO Internet, Inc. d/b/a Onamae.com」のシェア値を集計。 ※1 2020年8月時点の調査。
[速報]オラクル、HadoopとNoSQLを搭載した専用マシン「Oracle Big Data Appliance」を発表。Oracle OpenWorld 2011 米オラクルは10月4日(現地時間10月3日)、ビッグデータのための専用マシン「Oracle Big Data Appliance」を、サンフランシスコで開催中のOracle OpenWorld二日目の基調講演で発表しました。 キーバリュー型のデータストア「Oracle NoSQL Database」と「Apache Hadoop」および関連ソフトウェアを、データベースマシンとして開発されたOracle Exadataのハードウェアに載せたものです。 これまでビッグデータに対して特別なアナウンスをしてこなかったオラクルが、ビッグデータ、そしてコモディティサーバによる分散処理が主流になっているHadoopに対しても、ハードウェア
バッチ処理にかける対象ファイルの抽出には中身を見る必要があって、headやtailでいいんだけどhadoop fsコマンドではそういうオペレーションができない*1ので FUSE hdfs でLinuxにHDFSをmountしてやっている。 が、これがまたビルドするのにひと苦労だったりmount元と先が密結合になっちゃったり遅かったりいつまでメンテされるもんかと思われたりするし外部コマンドを起動して結果を読んでゴニョゴニョしたりするのが面倒なのでどうにかしたいなーと思っていたら、Clouderaから Hoop なるプロダクトが少し前にリリースされた。 Hoop - Hoop, Hadoop HDFS over HTTP - Documentation Sets 0.1.0-SNAPSHOT HTTP REST APIを経由してHDFSの内容にアクセスできるし、オペレーションもできる。GETの
概要 AfwHSは、Scalaで記述したコードをAsakusaFWの(Java)DSLに変換して実行できるようにするライブラリー。 AfwHSはコードネーム「AsakusaFramework Hishidama Scala」の略かなぁ(苦笑) 「Hishidama」なんて恥ずかしい単語が入っている理由は、AsakusaFWでScalaと言えばasami224さんの「Asakusa Scala DSL」の事を指すので、違いを出す必要があるから…。 「AfwHS」を何て発音すればいいか分からないから(爆)、「AHS」でいいかも。 DMDLで作ったJavaのモデルクラスを元に、AsakusaFWの演算子(アノテーション)を模したScalaの関数(これがAfwHSで用意されているもの)を使って処理を記述する。 それを元にAsakusaFWのOperator・JobFlowを生成する。 とりあえず作
1年経ってiPhone4の電池がヘタってきた、太田です。 指数関数的にエントリ数が少なくなってきた本ブログですがw、景気付けのためにエントリを投稿したいと思います!本日はHBaseについてです。 Linux と Hadoop と HBase と ZooKeeper に詳しいあなた!あなたがターゲットです。 HBaseとは? HBaseとは、HDFS (Hadoop Distributed File System)上に構築された分散データベースです。大量の非常に細かいデータをリアルタイムに読み書き出来るのが特徴です。最近ではFacebook Messageの基盤技術として使用された事で注目を集めています。 HBase公式サイト Apache HBase ブック 保存されたデータはHDFS上に保存され、HDFSの仕組みによってレプリケーションされるため安全にデータを保持することが出来ます。 ま
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011 2011/02/22 [登壇後エントリ] :" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」-Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less
次世代アーキテクチャについての考えをまとめておく。 まずは、Hbaseの勉強会のお話。 某界隈では割と話題になったので、 細かいブログやサイトは結構、紹介されている。 ので特に詳細は省く。 一応tatsuyaさんのSlideshareは Tokyo HBase Meetup - Realtime Big Data at Facebook with Hadoop and HB… slideを見ているだけでは、よくわからないと思うが Jonathanとの会話では、FBはバックエンドの部分を含めて バッチ処理は別のHadoopクラスターで行っている。 相当バリバリ使っているようだ。 したがって、割と話題になっているHbase上でHadoopMRはどうよ? っていう話は「分ける」ってのが正解に近く、 フロント処理とバック処理は明快にわけることが基本になるようだ。 その上での印象で、 自分の思ったこ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く