分散並列処理の基本に関する解説と,分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です.
Hadoop / Spark Conference Japan 2016に行ってきましたので、その内容についてレポートします。最近は機械学習とSparkに興味があるためランチはB会場のライトニングトークを聞き、午後はD会場のセッションに参加しました。なお、スライドは順次Hadoop / Spark Conference Japan 2016(2月8日、東京)の講演・LTのプログラム | 日本Hadoopユーザー会に公開されるそうなので、そちらも合わせてご覧下さい。 Keynote まずは午前中のKeynoteです。他にもKeynoteに関する記事を見つけたのこちらも合わせてご覧下さい。 #hcj2016 Hadoop/Spark Conference Japan 2016 午前キーノートのメモ - #garagekidztweetz Hadoop / Spark Conference Ja
Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく。Hadoop Spark Conference Japan 2016 分散処理基盤として普及をはじめたHadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」が2月8日に都内で開催されました。 基調講演として行われたセッションの1つ「Apache Hadoopの現在と未来」では、Hadoopコミッタの小沢健史と鯵坂明氏が登壇。YARNとHDFSにフォーカスし、現状と将来像を紹介しています。セッションの内容をダイジェストで紹介します。 YARNはCPUだけでなくGPGPUやFPGAなどにも対応していくだろう Hadoopコミッタの小沢健史氏(写真中央)。 Hadoopには3つコンポーネントがあって、1つはMapRe
11月27日、ノーチラス・テクノロジーズは「2015 Asakusa Framework Day」を開催。舌鋒鋭い物言いで知られる同社の代表取締役社長 神林飛志氏は、ビッグデータとIoT市場の現状やHadoop/Sparkと日本市場のミスマッチなどを指摘しつつ、次世代のAsakusa Frameworkの構想を披露した。 ビッグデータは既存のCRM、IoTはPoCレベル ノーチラス・テクノロジーズのAsakusa Frameworkは、業務システムのバッチ処理にHadoopやSparkでの分散システムを活用するための開発・運用フレームワーク。会計や在庫などの業務データから精度の高い分析情報を作成したり、バッチ処理に利用できるほか、分散システムのメリットを活かし、負荷分散や高い可用性などを実現する。OSSで公開されており、エンタープライズで多くの実績を持つ。 イベントの後半で登壇したノーチラ
Strata + Hadoop World参加記録 その1 Strata + Hadoop World参加記録 その2 Strata + Hadoop World参加記録 その3 Strata + Hadoop World参加記録 その4 という感じで念願のStrataに参加でき、無事日本に帰国して落ち着いたので色々振り返ってみています。 今回の個人的な感想 Starata + Hadoop Conferenceと言いつつ、ほぼ誰もHadoopの事は言わず、ほとんどがSparkネタという。いよいよ、という感じですよね。— norihiro shimoda (@rindai87) 2015, 2月 19 という感じです。これは、Hadoopがオワコンとかそういう訳ではなく、もうすでにHadoopが浸透しきって、MapReduceによるバッチ処理はひと通りやり尽くしたので、次になにを?、という
このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの12/6担当分です。 CDH5対応のSparkバイナリはどこに? Sparkアプリケーションの開発を行っていると「Hadoopクラスタに接続してxxする」というケースがあると思います。いちいちアプリケーションのJARをアップロードするのは面倒なので、できれば「手元のマシン(Macとか)からリモートのHadoopクラスタに接続してxx」したいところです。 しかし、Hadoopエコシステムのプロダクトはライブラリの依存関係がシビアなため、バージョンやディストリビューションが異なると接続できないことが多いです。(しかも状況によって発生するエラーが異なるので原因究明が大変です。特に、自分のようにHadoopの経験が浅い人間は素直にディストリビューションの標準構成に従っておいた
出典:ITpro 2014/8/4 (記事は執筆時の情報に基づいており、現在では異なる場合があります) オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるように
We are thrilled to announce the general availability of the Cloudera AI Inference service, powered by NVIDIA NIM microservices, part of the NVIDIA AI Enterprise platform, to accelerate generative AI deployments for enterprises. This service supports a range of optimized AI models, enabling seamless and scalable AI inference. Background The generative AI landscape is evolving […] Read blog post
オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、(DAG:Directed Acyclic Graph=有向
最近Apache Spark関連のお仕事をしているので、2014/7/7に開催されたHadoop Conference Japan 2014に参加してきました。 Hadoopユーザー会主催、リクルートテクノロジーズ後援で、今回で5回目だそうです。 イベント概要&資料/Ustream公開 当日のタイムテーブル、および録画(Ustream)はこちらから参照できます。 https://hcj2014.eventbrite.com/ 参加者に配布されたパスと扇子。 全体を通して 参加登録者数が1300名、うち65%は本カンファレンスに初参加とのことでした。 BigData処理に対する関心の高まりを感じるとともに、実際に利用しているユーザーはまだ少数派で、これから本格的に普及するというステージのようです。 Hadoopエコシステムの拡大に伴い、単純な分散ファイルシステム(HDFS)と並列バッチ処理(
オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」のユーザー会「Hadoop Conference Japan 2014」が2014年7月8日、東京・汐留で開催された。基調講演には、Hadoopのオリジナル開発者であるダグ・カッティング氏(写真1)などが登壇。カッティング氏は「バッチ処理用の『MapReduce』以外の処理方式に対応した現在のHadoopは、ビッグデータを処理する分散OSのカーネルとも言うべき存在になった」と語った。 基調講演にはカッティング氏のほか、日本Hadoopユーザー会の世話役であるリクルートテクノロジーズの米谷修氏やNTTデータの濱野賢一朗氏、「Spark」の開発元である米データブリックス(Databricks)のパトリック・ウェンデル氏、米トレジャーデータの太田一樹氏が登壇した。 NTTデータの濱野氏(写真2)は基調講演の冒頭、2009年
Documentation Download Apache Parquet is an open source, column-oriented data file format designed for efficient data storage and retrieval. It provides high performance compression and encoding schemes to handle complex data in bulk and is supported in many programming language and analytics tools.
Hadoop ソースコードリーディング #16 日 時: 2014年5月29日(木) 19:00~21:00 (受付開始 18:45) 場 所: 豊洲センタービル (NTTデータ) ← いつもの隣のビル! 地 図: http://www.nttdata.com/jp/ja/corporate/profile/guide/map.html (有楽町線豊洲駅3番出口を出て、左手奥の建物。エスカレータを上がった1Fに受付を設営します) 定 員: 120名 Spark 、個人的にはまだ触ったことがないのだけれど、久々に Hadoop ソースコードリーディングが開催されるということで、参加してきました。 今回は、 Hadoop ソースコードリーディングというより、 Spark ソースコードリーディングだったというのはおいておいて、、 飲み食いなし! 本当にソースを読んだ!! スピーカーなお三方のプレ
Hadoopソースコードリーディング 第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないw 今回はお酒を飲んでグダグダする時間はないw Apache Sparkのご紹介(前半) NTTデータ土橋さん まずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。 土橋さん 6年前からHadoopに関わっている。 基本はインフラエンジニア Ansible使っている。 アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ 前提 机上調
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く