[B! spark][qiita] ishideoのブックマーク

ishideo id:ishideo

sparkとqiitaに関するishideoのブックマーク (5)

データ分析のための並列処理ライブラリDask - Qiita
この記事は、Brainpad Advent Calender 15日目の記事です。本記事では、メモリに乗らないようなデータもPandasやNumPyライクに操作を行い、スケールアップ・スケールアウトにも対応できるライブラリ、Daskについて、簡単に紹介をします。はじめに Pythonでデータ分析や機械学習をする際、PandasやNumPyを用いる場面が非常に多くなってきました。しかし、PandasやNumPyではメモリに乗らないデータの扱いが難しかったり、基本的にシングルコアでの処理を行うため、速度が遅い、といった問題があります。例えば、サーバー上で実行する際、CPUの論理コアが32個あっても、1個のCPUしか使用していない、といった感じです。近年、データ分析関連のライブラリは非常に多様化しており、派閥（?）が沢山あるようです。個人的には、Pandas作者であるWes McKin
ishideo 2020/01/27
python

numpy

spark

pandas

dask

qiita

parallel
リンク
Spark Thrift Serverを構築してクライアントツールと連携するための手順(簡易) - Qiita
タイトルについて、日本語の情報があまりなかったので書いてみました。知っておくと、BIツールとの連携が広がるのかな..と思いました。と言いながら、すべてローカル環境で完結する手順になってます。 HDFSは利用していません。ですが、Sparkクラスタ環境の場合でも大きく手順は変わらないと思います。私の動作環境は、以下の通りですが、古くても動くと思います。 Mac Mojave jdk 1.8 spark 2.4.0 PostgreSQL 11.2 事前準備すでに準備ができていれば不要です。 Spark 2.4.0ダウンロード cd ~ # ダウンロード curl -O http://ftp.kddilabs.jp/infosystems/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz # 解凍 tar xvfz spark-
ishideo 2019/04/17
scala

apachespark

dbeaver

mac

spark

qiita
リンク
pysparkでタイトル類似度を計測する - Qiita
概要大量のタイトルの類似度を測って、似ているタイトルのアイテムを列挙したい。その場合、タイトルの類似度を図るために、(N*N)/2個のタイトルを比較しなければならない。タイトルが増えていくと、一つのCPUだと辛くなるので、分散処理環境で並列に処理しようとおもい、pysparkで分散環境で出来ないか調査してみた。コードはgistにあげている。利用したソース spark 2.2.1 hadoop 2.7 試したCSV 結果 cid_1 title_1 cid_2 title_2 simularity
ishideo 2019/04/14
pyspark

apachespark

spark

qiita

similarity

levenshtein

distance
リンク
Apache Sparkを勉強して分散処理できますよ！って言えるようになる　その２ - Qiita
前回はこちらはじめに今日はsparkの標準ライブラリであるMLlibを利用してみます。 sparkにはMLlibを含め、４種類の標準ライブラリがあります。他のライブラリに関しては、こちらを参照ください。 MLlibとは spark上に実装されている機械学習のライブラリです。機械学習の実装はすごくムズカシイのですが、MLlibは割と簡単に試すことができ、サポートしているアルゴリズムも豊富なのでとっつきやすい気がします（私見です）。とりあえず、協調フィルタリングを試してみます。協調フィルタリングについてはこのブログが大変参考になりました。実装手順 1. 必要なライブラリをimportする from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
ishideo 2019/04/14
apachespark

spark

qiita

mllib

mlops
リンク
PySparkで協調フィルタリング - Qiita
ratingの名前の通り、「ユーザーがその商品にどれだけ評価値を付けたかどうか」が本来の使い方になりますが、上記の通り「商品を購入したかどうか」、または「ページにアクセスしたかどうか」といったデータでも実装は可能です。前者の場合は「ユーザーがその商品を購入するスコアはどのくらいか」、後者は「ユーザーがそのページにアクセスするどのくらいか」を予測するモデルになります。学習データを加工するユーザーIDや商品IDがint32の最大値（2,147,483,647）までしか扱えないため、それを超えるIDがある場合にIDを改めてナンバリングし直します。また整数値しか扱えないので、文字列含まれる場合も同様にナンバリングし直します。 IDが整数値かつint32の最大値を超えない場合は、この工程は飛ばしてください。 #!/usr/bin/env python # -*- coding: UTF-8 -*
ishideo 2019/04/14
pyspark

collaborative

filtering

python

apachespark

spark

qiita
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx