[B! Hadoop][Spark] nobusueのブックマーク

decode17

分散並列処理の基本に関する解説と，分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です．

nobusue 2017/05/25

リンク

Hadoop / Spark Conference Japan 2016に行ってきました | DevelopersIO

Hadoop / Spark Conference Japan 2016に行ってきましたので、その内容についてレポートします。最近は機械学習とSparkに興味があるためランチはB会場のライトニングトークを聞き、午後はD会場のセッションに参加しました。なお、スライドは順次Hadoop / Spark Conference Japan 2016（2月8日、東京）の講演・LTのプログラム | 日本Hadoopユーザー会に公開されるそうなので、そちらも合わせてご覧下さい。 Keynote まずは午前中のKeynoteです。他にもKeynoteに関する記事を見つけたのこちらも合わせてご覧下さい。 #hcj2016 Hadoop/Spark Conference Japan 2016 午前キーノートのメモ - #garagekidztweetz Hadoop / Spark Conference Ja

nobusue 2016/02/12

hadoop
Spark

リンク

Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく。Hadoop Spark Conference Japan 2016

Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく。Hadoop Spark Conference Japan 2016 分散処理基盤として普及をはじめたHadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」が2月8日に都内で開催されました。基調講演として行われたセッションの1つ「Apache Hadoopの現在と未来」では、Hadoopコミッタの小沢健史と鯵坂明氏が登壇。YARNとHDFSにフォーカスし、現状と将来像を紹介しています。セッションの内容をダイジェストで紹介します。 YARNはCPUだけでなくGPGPUやFPGAなどにも対応していくだろう Hadoopコミッタの小沢健史氏（写真中央）。 Hadoopには3つコンポーネントがあって、1つはMapRe

nobusue 2016/02/09

hadoop
Spark

リンク

神林節炸裂！Asakusa Frameworkは「分散」から「並列」へ (1/3)

11月27日、ノーチラス・テクノロジーズは「2015 Asakusa Framework Day」を開催。舌鋒鋭い物言いで知られる同社の代表取締役社長神林飛志氏は、ビッグデータとIoT市場の現状やHadoop/Sparkと日本市場のミスマッチなどを指摘しつつ、次世代のAsakusa Frameworkの構想を披露した。ビッグデータは既存のCRM、IoTはPoCレベルノーチラス・テクノロジーズのAsakusa Frameworkは、業務システムのバッチ処理にHadoopやSparkでの分散システムを活用するための開発・運用フレームワーク。会計や在庫などの業務データから精度の高い分析情報を作成したり、バッチ処理に利用できるほか、分散システムのメリットを活かし、負荷分散や高い可用性などを実現する。OSSで公開されており、エンタープライズで多くの実績を持つ。イベントの後半で登壇したノーチラ

nobusue 2015/12/01

異論がないわけではないが、Sparkは大規模クラスタでこそ威力を発揮するという意見には賛成

リンク

SparkとHadoopは友だちである、敵ではない | TechCrunch Japan

nobusue 2015/07/14

hadoop
Spark

リンク

Strata + Hadoop World参加記録その5 - 元データ分析の会社で働いていた人の四方山話

Strata + Hadoop World参加記録その1 Strata + Hadoop World参加記録その2 Strata + Hadoop World参加記録その3 Strata + Hadoop World参加記録その4 という感じで念願のStrataに参加でき、無事日本に帰国して落ち着いたので色々振り返ってみています。今回の個人的な感想 Starata + Hadoop Conferenceと言いつつ、ほぼ誰もHadoopの事は言わず、ほとんどがSparkネタという。いよいよ、という感じですよね。— norihiro shimoda (@rindai87) 2015, 2月 19 という感じです。これは、Hadoopがオワコンとかそういう訳ではなく、もうすでにHadoopが浸透しきって、MapReduceによるバッチ処理はひと通りやり尽くしたので、次になにを？、という

nobusue 2015/02/25

やはり現状ではKafka一択ですね

リンク

Hadoop、Spark、ビッグデータ関連書籍 | Tech Blog

2021夏：ページアップデート中 2021/8/13 発売予定の書籍も含めたビッグデータ関連（Hadoop、Spark、Kafka、機械学習系など）関連書籍のまとめです。日本語で提供されている書籍を中心に掲載していますが、読んだことがある／手元にある／買おうかなと思っている書籍を中心にまとめているので、全てを網羅しているわけではありません。当初はブログで公開していましたが、更新が多いので独立したページとしました。（コメントは私見です。素晴らしい書籍ばかりです）書籍名（原書）出版日コメント

nobusue 2015/02/11

hadoop
Spark

リンク

Hadoop関連本リリース予定 (2014/12版)

４日目です。 2015/1/1: 最新情報を別ページにまとめました O’Reillyのサイバーセールで洋書を買いまくった皆様、いかがお過ごしでしょうか？前回のブログからだいぶ時間が過ぎてしまったので、今後出版される予定のHadoop関連本のまとめを更新してみました。（一部O’Reillyじゃないものも含まれています）しかし象本４版は来年秋かぁ、、、まだまだ先ですね 🙂 Early Releaseと見間違いました。ご指摘ありがとうございました＞ @tamagawa_ryuji さん m(__)m ＃日本語版楽しみにしてますw NoTitleRelease date和書名出版日雑感

nobusue 2014/12/07

hadoop
Spark

リンク

CDH5対応のSparkをビルドする方法 - nobusueの日記

このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの12/6担当分です。 CDH5対応のSparkバイナリはどこに? Sparkアプリケーションの開発を行っていると「Hadoopクラスタに接続してxxする」というケースがあると思います。いちいちアプリケーションのJARをアップロードするのは面倒なので、できれば「手元のマシン(Macとか)からリモートのHadoopクラスタに接続してxx」したいところです。しかし、Hadoopエコシステムのプロダクトはライブラリの依存関係がシビアなため、バージョンやディストリビューションが異なると接続できないことが多いです。(しかも状況によって発生するエラーが異なるので原因究明が大変です。特に、自分のようにHadoopの経験が浅い人間は素直にディストリビューションの標準構成に従っておいた

nobusue 2014/12/06

Spark, SQL on Hadoop etc. Advent Calendar 2014 12/6エントリかきました。小ネタなのに長い。。

リンク

MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

出典：ITpro 2014/8/4 （記事は執筆時の情報に基づいており、現在では異なる場合があります）オープンソースソフトウエア（OSS）の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。現在のHadoopの状況をどのように見ているか？同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。（米Apacheソフトウエア財団が2013年10月に正式版をリリースした）スケジューラーの「YARN」によって、（Hadoopのストレージシステムである）「HDFS」の上に、様々なテクノロジーを共存できるように

nobusue 2014/09/30

Hadoop
Spark

リンク

Cloudera Blog

We are thrilled to announce the general availability of the Cloudera AI Inference service, powered by NVIDIA NIM microservices, part of the NVIDIA AI Enterprise platform, to accelerate generative AI deployments for enterprises. This service supports a range of optimized AI models, enabling seamless and scala ble AI inference. Background The generative AI landscape is evolving […] Read blog post

nobusue 2014/09/05

mapとmapPartitionsの違いは重要

Spark
Hadoop

リンク

MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

オープンソースソフトウエア（OSS）の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。現在のHadoopの状況をどのように見ているか？同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。（米Apacheソフトウエア財団が2013年10月に正式版をリリースした）スケジューラーの「YARN」によって、（Hadoopのストレージシステムである）「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、（DAG：Directed Acyclic Graph＝有向

nobusue 2014/08/04

Sparkの上に乗るエコシステムにチャンスがあるね

hadoop
Spark

リンク

Hadoop Conference Japan 2014参加レポート - nobusueの日記

最近Apache Spark関連のお仕事をしているので、2014/7/7に開催されたHadoop Conference Japan 2014に参加してきました。 Hadoopユーザー会主催、リクルートテクノロジーズ後援で、今回で５回目だそうです。イベント概要＆資料/Ustream公開当日のタイムテーブル、および録画(Ustream)はこちらから参照できます。 https://hcj2014.eventbrite.com/ 参加者に配布されたパスと扇子。全体を通して参加登録者数が1300名、うち65%は本カンファレンスに初参加とのことでした。 BigData処理に対する関心の高まりを感じるとともに、実際に利用しているユーザーはまだ少数派で、これから本格的に普及するというステージのようです。 Hadoopエコシステムの拡大に伴い、単純な分散ファイルシステム(HDFS)と並列バッチ処理(

nobusue 2014/07/12

遅ればせながらHadoop Conference Japan 2014のまとめ。すごい役に立ちました。ありがとう。

hadoop
Spark

リンク

「Hadoopはビッグデータの“OSカーネル”」、Hadoop Conference Japan開催

オープンソースソフトウエア（OSS）の分散データ処理ソフト「Hadoop」のユーザー会「Hadoop Conference Japan 2014」が2014年7月8日、東京・汐留で開催された。基調講演には、Hadoopのオリジナル開発者であるダグ・カッティング氏（写真1）などが登壇。カッティング氏は「バッチ処理用の『MapReduce』以外の処理方式に対応した現在のHadoopは、ビッグデータを処理する分散OSのカーネルとも言うべき存在になった」と語った。基調講演にはカッティング氏のほか、日本Hadoopユーザー会の世話役であるリクルートテクノロジーズの米谷修氏やNTTデータの濱野賢一朗氏、「Spark」の開発元である米データブリックス（Databricks）のパトリック・ウェンデル氏、米トレジャーデータの太田一樹氏が登壇した。 NTTデータの濱野氏（写真2）は基調講演の冒頭、2009年

nobusue 2014/07/09

hadoop
Spark

リンク

Hadoop Conference Japan 2014

nobusue 2014/07/09

講演資料がぼちぼち公開されてます

リンク

Parquet

Documentation Download Apache Parquet is an open source, column-oriented data file format designed for efficient data storage and retrieval. It provides high performance compression and encoding schemes to handle complex data in bulk and is supported in many programming language and analytics tools.

nobusue 2014/07/02

clumnar dataをポータブルなファイルに落とす

リンク

実際のところ Spark ソースコードリーディングだった #hadoopreading #16 はネ申回だった！ - #garagekidztweetz

Hadoop ソースコードリーディング #16 日　時： 2014年5月29日（木） 19:00～21:00 （受付開始 18:45）場　所：豊洲センタービル（NTTデータ） ← いつもの隣のビル！地　図： http://www.nttdata.com/jp/ja/corporate/profile/guide/map.html （有楽町線豊洲駅3番出口を出て、左手奥の建物。エスカレータを上がった1Fに受付を設営します）定　員： 120名 Spark 、個人的にはまだ触ったことがないのだけれど、久々に Hadoop ソースコードリーディングが開催されるということで、参加してきました。今回は、 Hadoop ソースコードリーディングというより、 Spark ソースコードリーディングだったというのはおいておいて、、飲み食いなし！本当にソースを読んだ！！スピーカーなお三方のプレ

nobusue 2014/05/30

Spark
hadoop

リンク

Hadoopソースコードリーディング第16回に参加してきました | DevelopersIO

Hadoopソースコードリーディング第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないｗ今回はお酒を飲んでグダグダする時間はないｗ Apache Sparkのご紹介（前半） NTTデータ土橋さんまずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。土橋さん 6年前からHadoopに関わっている。基本はインフラエンジニア Ansible使っている。アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ前提机上調

nobusue 2014/05/30

そろそろ実用フェーズに入ったかSpark

Spark
hadoop

リンク

Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan

Cloudera は、最大規模の企業があらゆる場所に存在するすべてのデータを信頼性の高い有意義な洞察に変換できるよう支援します。 Trusted Data Today for Tomorrow’s AI (今日の信頼できるデータを、明日の AI に託す) データと AI がテーマのプレミアカンファレンスで、業界最前線の明確なビジョンを持った方々やソートリーダーから貴重な洞察を得ることができます。

nobusue 2014/04/04

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

HadoopとSparkに関するnobusueのブックマーク (19)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス