[B! Spark] myfirmのブックマーク

myfirm id:myfirm

Sparkに関するmyfirmのブックマーク (2)

普通のPythonスクリプトをSpark化してお手軽並列処理する #spark - クリエーションライン株式会社
こんにちは。木内です。 Apache Sparkはいわゆる「スケーラブルな汎用分散処理エンジン」なのですが、実際にはユーザの利用形態はSQLに関する処理や、機械学習などのデータ分析関連に偏っているように思えます。"汎用"というからにはデータ分析に限らずおおよそ並列処理できるようなユースケースにも使用できると Apache Spark の用途の幅が広がるのではないかなと思います。そこで今回はデータ分析とは全く関係のないような処理をApache Sparkで並列化してみます。そもそもどんなところで並列処理は使用されているのか一般的に並列処理が使用されているのはいわゆるスパコンの分野です。私はスパコンのことはよくわからないのですが、線形代数、数値解析といった用途に利用されているようです。例えば Abaqus というソフトウェアは有限要素解析を行うことができるソフトウェアですが、応用分野とし
myfirm 2019/08/06
data

Spark
リンク
分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ
こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
myfirm 2018/02/05
HIVEとは、Facebookによって開発された、RDBを使う感覚でHadoopジョブを実行できる仕組みです。HiveQLというSQLライクのDSL言語を使うだけで内部で勝手にMapとReduceに変換して実行される優れモノです。

Spark
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx