[B! spark] dannのブックマーク

blog/dedup.md at main · huggingface/blog

dann 2023/10/14

リンク

Large-scale Near-deduplication Behind BigCode

dann 2023/10/14

リンク

Amazon EMR で Apache Spark アプリケーションのメモリをうまく管理するためのベストプラクティス | Amazon Web Services

Amazon Web Services ブログ Amazon EMR で Apache Spark アプリケーションのメモリをうまく管理するためのベストプラクティスビッグデータの世界における一般的なユースケースは、さまざまなデータソースからの大量のデータにおける抽出/変換 (ET) とデータ分析の実行です。多くの場合、この後でデータを分析してインサイトを取得します。このような大量のデータを処理するための最も人気のあるクラウドベースソリューションのひとつが Amazon EMR です。 Amazon EMR は、AWS での Apache Hadoop および Apache Spark などのビッグデータフレームワークの実行をシンプル化するマネージドクラスタープラットフォームです。Amazon EMR は、組織が複数のインスタンスを持つクラスターをほんの数分でスピンアップすることを可能にし

dann 2019/04/14

spark
emr

リンク

How We Optimise Apache Spark Jobs | REA Group Ltd

dann 2018/03/29

spark

リンク

Cloudera、AWS上でPaaS「Cloudera Altus」提供を発表。ビッグデータの分析基盤をサービスとして提供

Cloudera、AWS上でPaaS「Cloudera Altus」提供を発表。ビッグデータの分析基盤をサービスとして提供先月4月28日にニューヨーク証券取引所に上場したばかりのClouderaは、クラウドサービス「Cloudera Altus」を発表しました。これまで主要なHadoop/Sparkのディストリビューションベンダーとして知られてきた同社によるクラウドサービスの提供開始は、同社にとって新たなビジネス展開です。 Cloudera Altusは、下記のようにAWSのうえに構築されたSpark/MapReduce2/Hiveを提供するクラウドサービス、いわゆるPlatform as a Service（PaaS）の一種で、ビッグデータの分析など実行する基盤機能をサービスとして提供します。ユーザーはクラスタの管理や運用の手間をかけることなく、そのうえで実行するアプリケーションの

dann 2017/05/26

aws
spark

リンク

ディープラーニングフレームワークをCDHとCloudera Data Science Workbenchで動かす

原著者：Vartika Singh 原文：Deep Learning Frameworks on CDH and Cloudera Data Science Workbench 訳：有賀「ビッグデータ」の台頭により、機械学習はずっと簡単になりました。少量のデータだけを観察した後に新しいデータを一般化する、統計的推定の負担が大幅に軽減されたためです。典型的な機械学習タスクのゴールは、観測データを説明する変動要因を分離するように特徴を設計することです。しかし、多くの実世界の人工知能アプリケーションの難しさの主な原因は、変動要因の多くが観察できるすべてのデータに影響を与えることです。ディープラーニングは、より単純な表現を導入することによって、表現学習を通してこの中心的な問題を解決します。企業や研究者は、現在および将来のテクノロジーの進化に影響を及ぼすために、ますます多くのデータを分析して

dann 2017/04/30

spark
caffe

リンク

Monitoring Spark Applications

Spark is quickly becoming the most popular framework in the MapReduce family. With better performance and much better APIs - it's easier than ever to perform the actual data wrangling; But as always - the challenges of operating, verifying and optimizing your application over time are much greater than the initial setup - and all the more so with distributes systems. In Kenshoo, we've used and dev

dann 2017/04/25

リンク

Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -

市ヶ谷Geek★Night#11【Spark勉強会】ChristmaSpark https://ichigayageek.connpass.com/event/45925/ 発表資料

dann 2017/04/25

spark
jvm

リンク

Spark × Keras × Dockerでディープラーニングをスケーラブルにしてみた2　マルチホスト編 - Qiita

以前、Dist-kerasをDockerに載せてスケーラブルなディープラーニングを作ってみました。 http://qiita.com/cvusk/it ems/3e6c3bade8c0e1c0d9bf 当時の反省点はパフォーマンスが出なかったことですが、よく見直したらパラメータの設定が間違っていたようです。そこで反省がてら、いろいろ試してみました。前回までのあらすじ Dist-Keras自体の説明は以前の投稿をご参照いただきたいのですが、要はSparkクラスター上で動作するKerasです。私はこれをDockerイメージにして、スケールアウトを簡単にできるようにしてみました。なお、DockerfileはGitHubで公開しています。 https://github.com/shibuiwilliam/distkeras-docker 今回やること今回はDist-Keras on Doc

dann 2017/04/25

spark

リンク

https://events.static.linuxfound.org/sites/events/files/slides/Real%20Time%20Aggregation%20with%20Kafka%20%2CSpark%20Streaming%20and%20ElasticSearch%20%2C%20scalable%20beyond%20Million%20RPS.pdf

dann 2017/04/19

spark

リンク

ElasticsearchのApache Sparkサポート機能で遊ぶ - CLOVER🍀

Elasticsearchに、Apache Spark向けのライブラリがあることは知っていたのですが、長らく手をつけていないままだったので、1度試してみることにしました。 Apache Spark support | Elasticsearch for Apache Hadoop [2.3] | Elastic こちらを使うことで、Apache Sparkが提供するAPIをElasticsearchで使うことができるようになるみたいですね。内部的には、elasticsearch-hadoopに依存している模様。日本語記事もあるようです。楽しい可視化： elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社で、何をするかですが、まあ…Spark StreamingとTwitterですかね。今回は、以下のテーマでやってみることにしました。

dann 2017/04/19

リンク

Kafka+Spark Streaming+Elasticserachによるシステム構築と検証の進め方

はじめに前回はSpark Streamingの概要と検証シナリオ、および構築するシステムの概要を解説しました。今回はシステムの詳細構成と検証の進め方、および初期設定における性能測定結果について解説します。この検証ではメッセージキューのKafka、ストリームデータ処理のSpark Streaming、検索エンジンのElasticsearchを組み合わせたリアルタイムのセンサデータ処理システムを構築しています。今回はKafkaとElasticsearchの詳細なアーキテクチャやKafkaとSparkの接続時の注意点も解説します。システムの詳細構成マシン構成とマシンスペック評価に向けたマシンの初期構成を図1に示します。本システムは以下のノードから構成されます。センサデータを収集してKafkaに送信する収集・配信ノード Kafkaクラスタを構成してメッセージの受け渡しを行うキューとして

dann 2017/04/19

リンク

Spark 2.0の性能検証の結果とボトルネックの考察

はじめに前回は、Spark 2.0の主な変更点としてSpark 1.6よりも性能が向上し、アプリケーションの実装が容易になったことを解説しました。また、その性能検証のシナリオとして、電力消費量データを集計し可視化するケースを想定することを解説しました。今回は、シナリオに基づいた検証を行うための環境（システム構成、パラメータ）とその検証結果を解説します。システム構成データ分析システムの概要データ分析システムは、図1のように管理画面とデータ分析アプリケーション、データ処理基盤の3つから成ります。設備企画担当者は管理画面を介してドリルダウン分析を行います。予めデータ分析アプリケーションで設備の負荷を集計し、その演算処理を実行するのがデータ処理基盤です。本連載で取り上げるデータ処理基盤にはHadoopおよびSparkを導入しています。ハードウェア構成データ処理基盤は仮想サーバ3台、物理

dann 2017/04/18

spark

リンク

TechCrunch | Startup and Technology News

The tech layoff wave is still going strong in 2024. Following significant workforce reductions in 2022 and 2023, this year has already seen 60,000 job cuts across 254 companies, according to independent layoffs tracker Layoffs.fyi. Companies like Tesla, Amazon, Google, TikTok, Snap and Microsoft have conducted sizable layoffs in the…

dann 2015/06/17

spark

リンク

TechCrunch | Startup and Technology News

Welcome back to TechCrunch’s Week in Review. This week had two major events from OpenAI and Google. OpenAI’s spring update event saw the reveal of its new model, GPT-4o, which…

dann 2014/11/15

spark

リンク

Spark Internals - Hadoop Source Code Reading #16 in Japan

Apache Spark Introduction and Resilient Distributed Dataset basics and deep diveSachin Aggarwal

dann 2014/08/01

spark

リンク

MapReduce以外の分散処理基盤BSP, Piccolo, Sparkの紹介 - Preferred Networks Research & Development

どうも，実は今年から開発チームにjoinしていた中川です．可愛い犬の写真がなかったので，可愛いマスコットの画像を貼っておきます．最近MapReduceとかその実装であるHadoopとかをよく聞くようになりました．これはつまり，それだけ大量のデータをなんとか処理したいという要望があるからだと思います．しかし当たり前ですが，MapReduceは銀の弾丸ではありません．ということで，最近気になっているMapReduceとは違ったアプローチを取っている分散処理基盤について，社内のTechTalkで話した内容を簡単にまとめて紹介したいと思います． Bulk Sychronous Parallel このアルゴリズム自体は1990年に誕生したものです．長いのでBSPと書きます．さて，グラフから最短経路を求める時，MapReduceは使えるでしょうか？このような論文が出るくらいですから出来ないことはあ

dann 2011/06/17

リンク

BeInteractive! [Spark project 勉強会 #03 ありがとうございました]

今月も無事、Spark project 勉強会 #03 を終えることが出来ました。今回 100 名参加ということで、もう本当に色々スパークしていたような気がします。来月もスパーク！告知は公式ブログをチェックして下さいね。以下、僕の発表資料です。 Spark project 勉強会 #03 Keynote (近況報告)http://www.be-interactive.org/works/20080930/keynote.pdf マルチプレイ Flash ゲームのつくりかたhttp://www.be-interactive.org/works/20080930/be-lt02-multiplay.pdf あ、ちなみにこの度、二十歳の誕生日を迎えまして、勉強会でも (すいません) 、沢山の方に祝って頂き、本当にありがとうございました。20 代も三度の飯より ActionScrip

dann 2008/10/01

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

sparkに関するdannのブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス