[B! Spark] tatsu_toraのブックマーク

Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS

「夏真っ盛り！Spark + Python + Data Science祭り」で @chezou が発表した資料です http://connpass.com/event/34680/Read less

tatsu_tora 2018/03/26

リンク

Sparkで機械学習：回帰モデルで値を予測する - Namiking.net

サンプルデータ：身体情報から結婚時期を予測する CSV形式のダウンロードデータの傾向ただ無差別にデータを作っても、予測が合ってるかどうかの判断がつかないため、以下の様な事実無根な法則で値をでっちあげてみた。 B型は早婚 O型は晩婚 AB型はとても早婚女性は早婚肥満とモヤシは晩婚男性の高身長はとても晩婚コーディング前の準備 Apache Zeppelinのインストール Spark(ScalaやPython)の記述やその他細かいシェルスクリプトなどの操作をWeb上でインタラクティブに行えるノートブック系OSS1。この記事では、Sparkの操作は基本的にこのソフトを用いてコーディングを行っている。Sparkも一緒に含まれているので、これをローカルにインストールするだけで概ね動くはず。 Apache Zeppelin (incubating) https://zeppelin.in

tatsu_tora 2018/02/06

リンク

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ

こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

tatsu_tora 2017/12/05

リンク

Amazon EMRでSparkをやってみて - のんびりSEの議事録

8月中はSparkを利用したレコメンドシステムの構築を主にやっていたので、今回はそのことについて記載していきます。 Sparkとは BigDataを高速に分散処理を行うフレームワークで、以下のパッケージで構成されている。 Spark Core Spark SQL Spark Streaming MLib(Machine Learning Library) GraphX サポートしている言語 Python Java Scala R 1.6以降からデータフレームの機能が追加され、以降アップデートの際、RDDで提供されている機能が徐々に移植されている。 2.0以降はMLibでRDDはメンテナンスモードに入り、新規機能の追加はRDDでは行われなくなる模様。 EMR on Spark EMRとは Amazon EMR は、AWS でビッグデータフレームワーク (Apache Hadoop や Apa

tatsu_tora 2017/09/10

Spark
EMR

リンク

How To: Spark SQL Tuning – Qubole Support Center

tatsu_tora 2017/08/03

spark

リンク

「夏真っ盛り！Spark + Python + Data Science祭り」を開催しました＆Ibisを紹介しました #summerDS - once upon a time,

2016/07/25に「夏真っ盛り！Spark + Python + Data Science祭り」を開催しました。 connpass.com 今回はClouderaに入って初めてのコミュニティイベントということでしたが、なんと400人を超える応募をいただいてとてもありがたい限りです。会場をご提供いただいたDMM.comラボ様、発表いただいたサイバーエージェントの内藤さん、DMM.comラボの加嵜さん、LTの皆様ありがとうございました。 togetter.com pandasを大規模データにつなぐIbis Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS from Cloudera Japan www.slideshare.net Ibisはpandasの作者でもある Wes McKinney(@wesmckinn) の作っているライブラリです。ひとこ

tatsu_tora 2017/07/31

リンク

株式会社ALBERT（レコメンドエンジン）

データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

tatsu_tora 2017/07/26

spark
EMR

リンク

http://blog.yoslab.com/entry/2015/02/07/005533

tatsu_tora 2017/07/14

この仕様のお陰で1日悩んだ...

Spark
RDD

リンク

【後編】Apache Sparkを使って、メモリ使用量が大きいバッチ処理をスケールアウトADN LAB's Blog | ADN LAB's Blog

こんにちは、弊社で１ヶ月半ほどインターンとして働いているt_sakaiです。インターンシップの課題として、メモリ使用量が大きくて将来問題になりそうなバッチ処理をスケールアウトできるように書き換えるという課題に取り組みました。解決手段として流行りのApache Sparkを使ってみたので、本記事ではこれについて書こうと思います。本記事で使っている言語はScalaです。前編ではSparkを選んだ理由とSparkの基礎について説明したので、後編では既存プログラムをSpark用に書き換える際の問題と解決方法について説明します。本記事で紹介する内容前編今回解決したかった課題なぜSparkを選んだのか RDDについて簡単なプログラムをSparkで書き換える後編（本記事）本番プログラムをSpark用に書き換えるはまりどころ本番プログラムをSpark用に書き換えるモデル（DB）

tatsu_tora 2017/07/12

Spark

リンク

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

tatsu_tora 2017/07/10

リンク

Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成

はじめに前回は、Sparkで処理を実行したときのボトルネック箇所と、その対策について解説しました。今回は、「本検証のシナリオではどのようなクラスタ構成が良いか」検証した結果を解説します。 Spark2.0のパラメータチューニング最適なクラスタ構成を検討するにあたり、今回はSparkの（設定ファイルspark-defaults.confに記述できる）パラメータのうちいくつかをチューニングします。条件は次の通りです。 Sparkのバージョンは2.0 処理対象のデータは365日分の消費電力量データ Sparkのシャッフルファイル出力先ディスクはHDFSと共用（前回解説したもの）パーティション数のチューニング Sparkはデータを「パーティション」という単位で並列処理します。処理の流れは以下の通りです（図1）。今回はシャッフル処理後の適切なパーティション数を検証します。 (1)データソースか

tatsu_tora 2017/07/10

Spark

リンク

1114#SELECT

シンボル表現と$メソッドはimport sqlContext.implicits._を行い、implicit classをインポートすると使えるようになります。・WHERE WHEREはデータのフィルタリング条件を指定します。 ※ここらへんはSQL99等の仕様と同じです。 SQL >>> SELECT * FROM dataframe WHERE col2 > 0 DataFrame >>> DataFrameではfilterを使うこともできます。 DataFrame .where( $"col2" > 0 ) DataFrame .filter( $"col2".isNull ) ・JOIN JOINは複数のデータ(テーブル)を条件に従って結合します。使えるJOINタイプは下記のとおりです。単にJOINとだけ指定するとINNER JOINとなります。 LEFT SEMI JOINは

tatsu_tora 2017/07/07

リンク

Sparkパフォーマンス検証

株式会社ブレインパッドが行ったApache Sparkのパフォーマンス検証作業に関する資料です。詳細は、ブレインパッド公式ブログ「Platinum Data Blog」をご覧ください。URL:http://blog.brainpad.co.jp/

tatsu_tora 2017/06/28

Spark

リンク

How to use mllib.recommendation if the user ids are string instead of contiguous integers?

I want to use Spark's mllib.recommendation library to build a prototype recommender system. However, the format of the user data I have is something of the following format: AB123XY45678 CD234WZ12345 EF345OOO1234 GH456XY98765 .... If I want to use the mllib.recommendation library, according to the API of the Rating class, the user ids have to be integers (also have to be contiguous?) It looks like

tatsu_tora 2017/06/27

Spark

リンク

Apache Spark MLlibのレコメンドアルゴリズムを使う - 記録目録

1年くらい前にレコメンドロジックを実装するにあたってSpark MLlibのmllibパッケージ内のRDD版を使っていたのですが、データの整形など不便だったため、その後リリースされたmlパッケージ以下のDataFrame版を使ってみたい。きっと楽なはずということでサンプル的なものを実装してみました。 RDDとDataFrame RDD(Resilient Distributed Datasets)は、Spark上で分散処理可能なimmutableなデータセット DataFrameは、RDDを構造化したもので、RDBのテーブル的に処理が可能 DataFrameがより抽象化されたレイヤーで扱えるので、使う側からは楽なのとDataFrameのAPIがジョブを最適化してくれるというメリットもあります。レコメンドアルゴリズム Spark MLlibに用意されているALSというクラスを使います。

tatsu_tora 2017/06/27

リンク

Kafka+Spark Streaming+Elasticserachによるシステム構築と検証の進め方

はじめに前回はSpark Streamingの概要と検証シナリオ、および構築するシステムの概要を解説しました。今回はシステムの詳細構成と検証の進め方、および初期設定における性能測定結果について解説します。この検証ではメッセージキューのKafka、ストリームデータ処理のSpark Streaming、検索エンジンのElasticsearchを組み合わせたリアルタイムのセンサデータ処理システムを構築しています。今回はKafkaとElasticsearchの詳細なアーキテクチャやKafkaとSparkの接続時の注意点も解説します。システムの詳細構成マシン構成とマシンスペック評価に向けたマシンの初期構成を図1に示します。本システムは以下のノードから構成されます。センサデータを収集してKafkaに送信する収集・配信ノード Kafkaクラスタを構成してメッセージの受け渡しを行うキューとして

tatsu_tora 2017/06/27

リンク

概要 - Spark 2.1.1 ドキュメント日本語訳

tatsu_tora 2017/06/26

Spark
翻訳

リンク

Apache spark error: not found: value sqlContext

tatsu_tora 2017/06/21

2.0>=ではSparkSessionが使われていて、SQLContextはspark-shell実行時に読まなくなったんか

リンク

Spark MLlibの協調フィルタリングを活用したMovie Recommendation - KAZ log TechMemo

Sparkを触る機会が増えてきてるので、知識の棚卸しを兼ねてMLlib使ってレコメンデーションシステムを実装してみました。SparkSamit2014などMLlibのチュートリアル的に色々使われているSparkのMovie Recommendationですが、edXのIntroduction to Big Data with Apache Sparが内容的にも良さそうだったので、題材にしながら実装しました。本講座はSpark 1.3.1での実装ですが少し古すぎるので、1.6.1で使える機能は使う形でコード変えてます。おおまかな手順 ①データの準備元データを訓練、評価、テストデータにそれぞれ分割 ②評価数500以上の映画の中から平均評価点が高いものを表示 ③協調フィルタリングの実装 ④訓練データに自分をuserID"0"として加え、好きな映画を評価 ⑤自分の評価をもとに、アルゴリズムに映

tatsu_tora 2017/06/20

リンク

Spark Summit 2017 San Francisco - Technology Topics by Brains

こんにちは、データアナリストの青木とエンジニアの樋口です。引き続き、Spark Summit 2017 San Fransiscoの記事です。Keynoteやセッションで特に興味深かったものを紹介していきます。 Keynote Coming in Spark 2.2 まずは、Spark2.2に関する情報がきました。注目点は以下。コストベースSQLの最適化 structured streamingがproduction-readyとなった pip install pyspark が可能となるすでにgitではv.2.2.0-rc4のtagが打たれていることから、リリース間近なようですね。続いて大きな発表がありました。 Two new open source from Databricks おそらくこの発表がSummitの目玉だったようです。今後Databricksは以下２つについて、

tatsu_tora 2017/06/20

リンク

はてなブックマーク

タグ

関連タグで絞り込む (32)

Sparkに関するtatsu_toraのブックマーク (27)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス