[B! Python][python][Spark] serihiroのブックマーク

serihiro id:serihiro

PythonとpythonとSparkに関するserihiroのブックマーク (3)

ゼロから始めるSparkSQL徹底活用！
2017年3月21日ヒカラボ登壇資料【ヒカ☆ラボ】ゼロから始めるSparkSQL徹底活用！～Sparkのインストールから、 SparkSQLの概要紹介、実務で活用するためのノウハウまでを紹介します～ https://atnd.org/events/85919
serihiro 2017/04/08
Python

Spark
リンク
簡単なデータ操作を PySpark & pandas の DataFrame で行う - StatsFragments
Spark v1.3.0 で追加された DataFrame 、結構いいらしいという話は聞いていたのだが自分で試すことなく時間が過ぎてしまっていた。ようやく PySpark を少し触れたので pandas との比較をまとめておきたい。内容に誤りやよりよい方法があればご指摘下さい。過去に基本的なデータ操作について以下ふたつの記事を書いたことがあるので、同じ処理のPySpark 版を加えたい。今回はひとつめの "簡単なデータ操作〜" に相当する内容。 pandas 版簡単なデータ操作を Python pandas で行う - StatsFragments Python pandas でのグルーピング/集約/変換処理まとめ - StatsFragments 準備環境は EC2 に作る。Spark のインストールについてはそのへんに情報あるので省略。サンプルデータは iris を
serihiro 2017/03/31
Python

Spark
リンク
大規模並列処理：PythonとSparkの甘酸っぱい関係～PyData.Tokyo Meetup #3イベントレポート
ロゴステッカーの作成計画も進行中です。近々イベント会場でお配りできるかも知れません。チュートリアルおよび次回勉強会のお知らせこの度PyData.Tokyo初の試みとして、初心者向けのチュートリアルを3月7日（土曜日）に行います。また、次回勉強会はデータ解析に関する「高速化」をテーマにし、4月3日（金曜日）に開催します。詳細は記事の最後をご覧下さい。 Sparkによる分散処理入門 PyData.Tokyo オーガナイザーのシバタアキラ（@madyagi）です。ビッグデータを処理するための基盤としてHadoopは既にデファクトスタンダードになりつつあります。一方で、データ処理に対するさらなる高速化と安定化に向けて、新しい技術が日々生まれており、様々な技術が競争し、淘汰されています。そんな中、Apache Spark（以下Spark）は、新しい分析基盤として昨年あたりから急激にユーザーを増
serihiro 2017/01/11
Python

Spark
リンク
1