はじめまして山縣です。 私のチームでは弊社のサービスやコンサルティングなどで必要となる特許やその他さまざまなデータを収集・解析しています。特許情報などのデータはデータサイズとして大規模であったり複雑だったりすることもあり Hadoop なども含めたいろいろなミドルウェア・ツールを使っています。 そこで私の記事ではそういった業務に活用しているツールについて書いていきたいと思います。 今回は Spark についてです。(なお Spark が何かなどの解説はいたるところにあると思うので省略します。) 弊社でのSparkの導入は去年の春くらいからはじまりました。はじめは試験的に使っていましたが徐々に利用範囲を広げ、今ではデータの処理には欠かせないものとなっています。 弊社には Cloudera社のCDHを使った Hadoopクラスタがあり、Spark はそのクラスタのYARN上で稼働しています。Y
![Spark の driver で起きたエラーとその対応 - astamuse Lab](https://cdn-ak-scissors.b.st-hatena.com/image/square/9caf3b546bac9ba788141c2f65770556eab35f70/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fa%2Fastamuse%2F20160630%2F20160630164324.png)