2014年10月24日のブックマーク (6件)

  • 実際のところ Spark ソースコードリーディングだった #hadoopreading #16 はネ申回だった! - #garagekidztweetz

    Hadoop ソースコードリーディング #16 日 時: 2014年5月29日(木) 19:00~21:00 (受付開始 18:45) 場 所: 豊洲センタービル (NTTデータ) ← いつもの隣のビル! 地 図: http://www.nttdata.com/jp/ja/corporate/profile/guide/map.html (有楽町線豊洲駅3番出口を出て、左手奥の建物。エスカレータを上がった1Fに受付を設営します) 定 員: 120名 Spark 、個人的にはまだ触ったことがないのだけれど、久々に Hadoop ソースコードリーディングが開催されるということで、参加してきました。 今回は、 Hadoop ソースコードリーディングというより、 Spark ソースコードリーディングだったというのはおいておいて、、 飲みいなし! 当にソースを読んだ!! スピーカーなお三方のプレ

    実際のところ Spark ソースコードリーディングだった #hadoopreading #16 はネ申回だった! - #garagekidztweetz
  • 「ほかに解決策はない」:生みの親が語る「Hadoop 2.0」の可能性

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 分散並列処理プログラミングフレームワーク「Apache Hadoop」を中心にしたイベント「Hadoop Conference Japan 2014」が7月8日に開催された。今回で5回目となる同イベントには、HadoopでSQLクエリや機械学習などを高速に処理するための並列処理エンジン「Apache Spark」の主要開発者であるPatrick Wendell氏、Hadoopの産みの親であり、現在はHadoopディストリビューションベンダーであるClouderaのチーフアーキテクトを務めているDoug Cutting氏が参加し、基調講演に登壇した。 最新版となる「Hadoop 2.0」は2013年10月にリリース。Hadoopはバッチ処

    「ほかに解決策はない」:生みの親が語る「Hadoop 2.0」の可能性
  • Scala ではじめる Spark / MLlib の単純ベイズ分類器 - ALBERT Engineering Blog

    はじめに 以前のエントリにて Spark / MLlib の K-means を取り上げましたが、今回は同じく MLlib にて提供されている機械学習アルゴリズムの一つ、 単純ベイズ分類器 (Naive Bayes, ナイーブベイズ) を使ってみましょう&K-分割交差検証をしてみましょう、 というエントリです。 単純ベイズ分類器そのものについては読者の皆様はご存知、という前提でこの後の話を進めてしまいますので、 「ちょっと良くわからないよ待ってくれ!」という方は 単純ベイズ分類器 – Wikipedia 第3回 ベイジアンフィルタを実装してみよう:機械学習 はじめよう|gihyo.jp … 技術評論社 第8回 自由回答式アンケートで顧客の声を聞くための考え方:Mahoutで体感する機械学習の実践|gihyo.jp … 技術評論社 などのページを一読することをおすすめします。 単純ベイズ分類

  • Hadoopソースコードリーディング 第17回に参加してきました | DevelopersIO

    Hadoopソースコードリーディング 第17回に参加してきました。今回のテーマは7月にApacheのTop-Level Project入りしたばかりのApache Tezについてでした。なお、全体的にApache Sparkと比較する形での説明が多かったので、Sparkについてご存じない方は前回のHadoopソースコードリーディング 第16回に参加してきましたをご参照下さい。 NTTデータ濱野さんの冒頭の挨拶 今日は別のイベントも多いためいつもの半分ぐらいの参加者だが、その分Deepにやれれば いつもの会場だと途中からピザとお酒だが、今回の会場は飲禁止なので最後までシラフで Tezに関する勉強会は初回なのにいきなりタイトルがInternalsとかになってますねw Tez Internals (@oza_x86 さん) @oza_x86 さんからはTez Internalsということで、S

    Hadoopソースコードリーディング 第17回に参加してきました | DevelopersIO
  • MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

    出典:ITpro 2014/8/4 (記事は執筆時の情報に基づいており、現在では異なる場合があります) オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるように

    MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
    eratostennis
    eratostennis 2014/10/24
    spark
  • 「Apache Spark」にかけるHortonworksの取り組み--インメモリエンジンをどう強化するか

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 「Hadoop」関連のソフトウェアとサービスを提供するHortonworksは米国時間9月24日、「Apache Spark」に関する計画を明らかにした。このインメモリエンジンを、エンタープライズでの利用に向けてさらに優れた選択肢にすることが目的だという。 同社は、Sparkと、Hadoopのリソース管理レイヤである「YARN」の連携を向上させ、ガバナンスとセキュリティ、オペレーションに優れたインメモリエンジンを提供するための取り組みに力を入れている。 SparkをYARNとより深く連携させる目的は、Sparkが、単一データプラットフォーム上で「Hive」「Storm」「HBase」といったほかのエンジンと連携してより効率的に稼働するよ

    「Apache Spark」にかけるHortonworksの取り組み--インメモリエンジンをどう強化するか