サンプルによるMeCabを使ったword cloudCloudera Data Science Workbench(CDSW)は、データサイエンティストに、Python、R、およびScalaを使用してエンタープライズデータにセキュアにアクセスできるようにします。 前回の記事(日本語)では、お気に入りのPythonライブラリをPySparkでApache Sparkクラスタで使用する方法を紹介しました。 Pythonの世界では、データサイエンティストはC/C ++などのネイティブ拡張を含むXGBoostなどのPythonライブラリを使用したいことがよくあります。 この記事では、この問題を解決してC拡張を使ってcondaレシピを作成する方法を示します。 レシピ作成のサンプルリポジトリはこちら、MeCabの分散実行のサンプルはこちら。 condaパッケージの詳細については、公式ドキュメントを参照