タグ

HadoopとSparkに関するnobusueのブックマーク (19)

  • decode17

    分散並列処理の基に関する解説と,分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です.

    decode17
  • Hadoop / Spark Conference Japan 2016に行ってきました | DevelopersIO

    Hadoop / Spark Conference Japan 2016に行ってきましたので、その内容についてレポートします。最近は機械学習とSparkに興味があるためランチはB会場のライトニングトークを聞き、午後はD会場のセッションに参加しました。なお、スライドは順次Hadoop / Spark Conference Japan 2016(2月8日、東京)の講演・LTのプログラム | 日Hadoopユーザー会に公開されるそうなので、そちらも合わせてご覧下さい。 Keynote まずは午前中のKeynoteです。他にもKeynoteに関する記事を見つけたのこちらも合わせてご覧下さい。 #hcj2016 Hadoop/Spark Conference Japan 2016 午前キーノートのメモ - #garagekidztweetz Hadoop / Spark Conference Ja

    Hadoop / Spark Conference Japan 2016に行ってきました | DevelopersIO
  • Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく。Hadoop Spark Conference Japan 2016

    Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく。Hadoop Spark Conference Japan 2016 分散処理基盤として普及をはじめたHadoopとSparkをテーマにした国内最大のカンファレンス「Hadoop Spark Conference Japan 2016」が2月8日に都内で開催されました。 基調講演として行われたセッションの1つ「Apache Hadoopの現在と未来」では、Hadoopコミッタの小沢健史と鯵坂明氏が登壇。YARNとHDFSにフォーカスし、現状と将来像を紹介しています。セッションの内容をダイジェストで紹介します。 YARNはCPUだけでなくGPGPUFPGAなどにも対応していくだろう Hadoopコミッタの小沢健史氏(写真中央)。 Hadoopには3つコンポーネントがあって、1つはMapRe

    Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく。Hadoop Spark Conference Japan 2016
  • 神林節炸裂!Asakusa Frameworkは「分散」から「並列」へ (1/3)

    11月27日、ノーチラス・テクノロジーズは「2015 Asakusa Framework Day」を開催。舌鋒鋭い物言いで知られる同社の代表取締役社長 神林飛志氏は、ビッグデータとIoT市場の現状やHadoop/Sparkと日市場のミスマッチなどを指摘しつつ、次世代のAsakusa Frameworkの構想を披露した。 ビッグデータは既存のCRM、IoTはPoCレベル ノーチラス・テクノロジーズのAsakusa Frameworkは、業務システムのバッチ処理にHadoopやSparkでの分散システムを活用するための開発・運用フレームワーク。会計や在庫などの業務データから精度の高い分析情報を作成したり、バッチ処理に利用できるほか、分散システムのメリットを活かし、負荷分散や高い可用性などを実現する。OSSで公開されており、エンタープライズで多くの実績を持つ。 イベントの後半で登壇したノーチラ

    神林節炸裂!Asakusa Frameworkは「分散」から「並列」へ (1/3)
    nobusue
    nobusue 2015/12/01
    異論がないわけではないが、Sparkは大規模クラスタでこそ威力を発揮するという意見には賛成
  • SparkとHadoopは友だちである、敵ではない | TechCrunch Japan

    Boeing’s Starliner spacecraft has successfully delivered two astronauts to the International Space Station, a key milestone in the aerospace giant’s quest to certify the capsule for regular crewed missions.  Starliner…

    SparkとHadoopは友だちである、敵ではない | TechCrunch Japan
  • Strata + Hadoop World参加記録 その5 - 元データ分析の会社で働いていた人の四方山話

    Strata + Hadoop World参加記録 その1 Strata + Hadoop World参加記録 その2 Strata + Hadoop World参加記録 その3 Strata + Hadoop World参加記録 その4 という感じで念願のStrataに参加でき、無事日に帰国して落ち着いたので色々振り返ってみています。 今回の個人的な感想 Starata + Hadoop Conferenceと言いつつ、ほぼ誰もHadoopの事は言わず、ほとんどがSparkネタという。いよいよ、という感じですよね。— norihiro shimoda (@rindai87) 2015, 2月 19 という感じです。これは、Hadoopがオワコンとかそういう訳ではなく、もうすでにHadoopが浸透しきって、MapReduceによるバッチ処理はひと通りやり尽くしたので、次になにを?、という

    Strata + Hadoop World参加記録 その5 - 元データ分析の会社で働いていた人の四方山話
    nobusue
    nobusue 2015/02/25
    やはり現状ではKafka一択ですね
  • Hadoop、Spark、ビッグデータ関連書籍 | Tech Blog

    2021夏:ページアップデート中 2021/8/13 発売予定の書籍も含めたビッグデータ関連(Hadoop、Spark、Kafka、機械学習系など)関連書籍のまとめです。 日語で提供されている書籍を中心に掲載していますが、読んだことがある/手元にある/買おうかなと思っている書籍を中心にまとめているので、全てを網羅しているわけではありません。 当初はブログで公開していましたが、更新が多いので独立したページとしました。(コメントは私見です。素晴らしい書籍ばかりです) 書籍名 (原書) 出版日 コメント

    Hadoop、Spark、ビッグデータ関連書籍 | Tech Blog
  • Hadoop関連本リリース予定 (2014/12版)

    4日目です。 2015/1/1: 最新情報を別ページにまとめました O’Reillyのサイバーセールで洋書を買いまくった皆様、いかがお過ごしでしょうか?前回のブログからだいぶ時間が過ぎてしまったので、今後出版される予定のHadoop関連のまとめを更新してみました。(一部O’Reillyじゃないものも含まれています) しかし象4版は来年秋かぁ、、、まだまだ先ですね 🙂 Early Releaseと見間違いました。ご指摘ありがとうございました> @tamagawa_ryuji  さん m(__)m #日語版楽しみにしてますw NoTitleRelease date和書名出版日雑感

    Hadoop関連本リリース予定 (2014/12版)
  • CDH5対応のSparkをビルドする方法 - nobusueの日記

    このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの12/6担当分です。 CDH5対応のSparkバイナリはどこに? Sparkアプリケーションの開発を行っていると「Hadoopクラスタに接続してxxする」というケースがあると思います。いちいちアプリケーションのJARをアップロードするのは面倒なので、できれば「手元のマシン(Macとか)からリモートのHadoopクラスタに接続してxx」したいところです。 しかし、Hadoopエコシステムのプロダクトはライブラリの依存関係がシビアなため、バージョンやディストリビューションが異なると接続できないことが多いです。(しかも状況によって発生するエラーが異なるので原因究明が大変です。特に、自分のようにHadoopの経験が浅い人間は素直にディストリビューションの標準構成に従っておいた

    CDH5対応のSparkをビルドする方法 - nobusueの日記
    nobusue
    nobusue 2014/12/06
    Spark, SQL on Hadoop etc. Advent Calendar 2014 12/6エントリかきました。小ネタなのに長い。。
  • MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

    出典:ITpro 2014/8/4 (記事は執筆時の情報に基づいており、現在では異なる場合があります) オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるように

    MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
  • Cloudera Blog

    The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

    Cloudera Blog
    nobusue
    nobusue 2014/09/05
    mapとmapPartitionsの違いは重要
  • MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

    オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、(DAG:Directed Acyclic Graph=有向

    MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
    nobusue
    nobusue 2014/08/04
    Sparkの上に乗るエコシステムにチャンスがあるね
  • Hadoop Conference Japan 2014参加レポート - nobusueの日記

    最近Apache Spark関連のお仕事をしているので、2014/7/7に開催されたHadoop Conference Japan 2014に参加してきました。 Hadoopユーザー会主催、リクルートテクノロジーズ後援で、今回で5回目だそうです。 イベント概要&資料/Ustream公開 当日のタイムテーブル、および録画(Ustream)はこちらから参照できます。 https://hcj2014.eventbrite.com/ 参加者に配布されたパスと扇子。 全体を通して 参加登録者数が1300名、うち65%はカンファレンスに初参加とのことでした。 BigData処理に対する関心の高まりを感じるとともに、実際に利用しているユーザーはまだ少数派で、これから格的に普及するというステージのようです。 Hadoopエコシステムの拡大に伴い、単純な分散ファイルシステム(HDFS)と並列バッチ処理(

    Hadoop Conference Japan 2014参加レポート - nobusueの日記
    nobusue
    nobusue 2014/07/12
    遅ればせながらHadoop Conference Japan 2014のまとめ。すごい役に立ちました。ありがとう。
  • 「Hadoopはビッグデータの“OSカーネル”」、Hadoop Conference Japan開催

    オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」のユーザー会「Hadoop Conference Japan 2014」が2014年7月8日、東京・汐留で開催された。基調講演には、Hadoopのオリジナル開発者であるダグ・カッティング氏(写真1)などが登壇。カッティング氏は「バッチ処理用の『MapReduce』以外の処理方式に対応した現在のHadoopは、ビッグデータを処理する分散OSのカーネルとも言うべき存在になった」と語った。 基調講演にはカッティング氏のほか、日Hadoopユーザー会の世話役であるリクルートテクノロジーズの米谷修氏やNTTデータの濱野賢一朗氏、「Spark」の開発元である米データブリックス(Databricks)のパトリック・ウェンデル氏、米トレジャーデータの太田一樹氏が登壇した。 NTTデータの濱野氏(写真2)は基調講演の冒頭、2009年

    「Hadoopはビッグデータの“OSカーネル”」、Hadoop Conference Japan開催
  • Hadoop Conference Japan 2014

    nobusue
    nobusue 2014/07/09
    講演資料がぼちぼち公開されてます
  • Apache Parquet

    Documentation Download Apache Parquet is an open source, column-oriented data file format designed for efficient data storage and retrieval. It provides efficient data compression and encoding schemes with enhanced performance to handle complex data in bulk. Parquet is available in multiple languages including Java, C++, Python, etc...

    nobusue
    nobusue 2014/07/02
    clumnar dataをポータブルなファイルに落とす
  • 実際のところ Spark ソースコードリーディングだった #hadoopreading #16 はネ申回だった! - #garagekidztweetz

    Hadoop ソースコードリーディング #16 日 時: 2014年5月29日(木) 19:00~21:00 (受付開始 18:45) 場 所: 豊洲センタービル (NTTデータ) ← いつもの隣のビル! 地 図: http://www.nttdata.com/jp/ja/corporate/profile/guide/map.html (有楽町線豊洲駅3番出口を出て、左手奥の建物。エスカレータを上がった1Fに受付を設営します) 定 員: 120名 Spark 、個人的にはまだ触ったことがないのだけれど、久々に Hadoop ソースコードリーディングが開催されるということで、参加してきました。 今回は、 Hadoop ソースコードリーディングというより、 Spark ソースコードリーディングだったというのはおいておいて、、 飲みいなし! 当にソースを読んだ!! スピーカーなお三方のプレ

    実際のところ Spark ソースコードリーディングだった #hadoopreading #16 はネ申回だった! - #garagekidztweetz
  • Hadoopソースコードリーディング 第16回に参加してきました | DevelopersIO

    Hadoopソースコードリーディング 第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないw 今回はお酒を飲んでグダグダする時間はないw Apache Sparkのご紹介(前半) NTTデータ土橋さん まずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。 土橋さん 6年前からHadoopに関わっている。 基インフラエンジニア Ansible使っている。 アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ 前提 机上調

    Hadoopソースコードリーディング 第16回に参加してきました | DevelopersIO
    nobusue
    nobusue 2014/05/30
    そろそろ実用フェーズに入ったかSpark
  • Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan
  • 1