タグ

sparkとqiitaに関するishideoのブックマーク (5)

  • データ分析のための並列処理ライブラリDask - Qiita

    この記事は、Brainpad Advent Calender 15日目の記事です。 記事では、メモリに乗らないようなデータもPandasやNumPyライクに操作を行い、スケールアップ・スケールアウトにも対応できるライブラリ、Daskについて、簡単に紹介をします。 はじめに Pythonデータ分析機械学習をする際、PandasやNumPyを用いる場面が非常に多くなってきました。 しかし、PandasやNumPyではメモリに乗らないデータの扱いが難しかったり、基的にシングルコアでの処理を行うため、速度が遅い、といった問題があります。例えば、サーバー上で実行する際、CPUの論理コアが32個あっても、1個のCPUしか使用していない、といった感じです。 近年、データ分析関連のライブラリは非常に多様化しており、派閥(?)が沢山あるようです。 個人的には、Pandas作者であるWes McKin

    データ分析のための並列処理ライブラリDask - Qiita
  • Spark Thrift Serverを構築してクライアントツールと連携するための手順(簡易) - Qiita

    タイトルについて、日語の情報があまりなかったので書いてみました。 知っておくと、BIツールとの連携が広がるのかな..と思いました。 と言いながら、すべてローカル環境で完結する手順になってます。 HDFSは利用していません。ですが、Sparkクラスタ環境の場合でも大きく手順は変わらないと思います。 私の動作環境は、以下の通りですが、古くても動くと思います。 Mac Mojave jdk 1.8 spark 2.4.0 PostgreSQL 11.2 事前準備 すでに準備ができていれば不要です。 Spark 2.4.0ダウンロード cd ~ # ダウンロード curl -O http://ftp.kddilabs.jp/infosystems/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz # 解凍 tar xvfz spark-

    Spark Thrift Serverを構築してクライアントツールと連携するための手順(簡易) - Qiita
  • pysparkでタイトル類似度を計測する - Qiita

    概要 大量のタイトルの類似度を測って、似ているタイトルのアイテムを列挙したい。 その場合、タイトルの類似度を図るために、(N*N)/2個のタイトルを比較しなければならない。 タイトルが増えていくと、一つのCPUだと辛くなるので、分散処理環境で並列に処理しようとおもい、pysparkで分散環境で出来ないか調査してみた。 コードはgistにあげている。 利用したソース spark 2.2.1 hadoop 2.7 試したCSV 結果 cid_1 title_1 cid_2 title_2 simularity

    pysparkでタイトル類似度を計測する - Qiita
  • Apache Sparkを勉強して分散処理できますよ!って言えるようになる その2 - Qiita

    前回はこちら はじめに 今日はsparkの標準ライブラリであるMLlibを利用してみます。 sparkにはMLlibを含め、4種類の標準ライブラリがあります。 他のライブラリに関しては、こちらを参照ください。 MLlibとは spark上に実装されている機械学習のライブラリです。 機械学習の実装はすごくムズカシイのですが、MLlibは割と簡単に試すことができ、サポートしているアルゴリズムも豊富なのでとっつきやすい気がします(私見です)。 とりあえず、協調フィルタリングを試してみます。 協調フィルタリングについてはこのブログが大変参考になりました。 実装手順 1. 必要なライブラリをimportする from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating

    Apache Sparkを勉強して分散処理できますよ!って言えるようになる その2 - Qiita
  • PySparkで協調フィルタリング - Qiita

    ratingの名前の通り、「ユーザーがその商品にどれだけ評価値を付けたかどうか」が来の使い方になりますが、上記の通り「商品を購入したかどうか」、または「ページにアクセスしたかどうか」といったデータでも実装は可能です。前者の場合は「ユーザーがその商品を購入するスコアはどのくらいか」、後者は「ユーザーがそのページにアクセスするどのくらいか」を予測するモデルになります。 学習データを加工する ユーザーIDや商品IDがint32の最大値(2,147,483,647)までしか扱えないため、それを超えるIDがある場合にIDを改めてナンバリングし直します。また整数値しか扱えないので、文字列含まれる場合も同様にナンバリングし直します。 IDが整数値かつint32の最大値を超えない場合は、この工程は飛ばしてください。 #!/usr/bin/env python # -*- coding: UTF-8 -*

    PySparkで協調フィルタリング - Qiita
  • 1