somemoのブックマーク / 2020年8月4日

GitHub - Netflix/iceberg: Iceberg is a table format for large, slow-moving tabular data

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

somemo 2020/08/04

リンク

Spark+AI Summit 2019参加レポート at San Francisco — Spark3.0/Koalas/MLflow/Delta Lake

こんにちは，NTTの山室です．今回の記事は4/23–25にサンフランシスコで開催されたSpark+AI Summitの参加レポートになります．興味のある情報への良い足がかりになることを目的に，個人的にチェックした内容を浅く広めに取り上げます．以下の公式サイトに大半の発表資料と動画が公開されていますので，興味がある方はそちらも併せて参照してください． Spark+AI Summit 2019 Agenda Summitの翌日に訪問した会場近くのDatabricks社Spark+AI Summitは現在年に2回アメリカ西海岸とヨーロッパで開催されているDatabricks（Sparkの作者が在籍する企業）主催のイベントです．特に毎年サンフランシスコで開催されるSummitは規模が大きく，今回世界中から5,000人を超える参加者が集まったそうです．この記事では個人的に興味を持った以下の内容

somemo 2020/08/04

リンク

Broadcast Joins (aka Map-Side Joins) · The Internals of Spark SQL

somemo 2020/08/04

リンク

Delta Architecture

somemo 2020/08/04

リンク

Koalas Talks and Blogs — Koalas 1.8.2 documentation

somemo 2020/08/04

リンク

マルチクラウドで分析基盤を構築してみた Supership201612

Data × AI でどんな業務が改善できる？製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介

somemo 2020/08/04

リンク

検索サービス開発が絶対におもしろいと思う理由

2. 2 Syn.ホールディングス/Supership 会社概要 ■設立の背景 ■Supership株式会社について KDDI におけるオープン領域事業拡大を推進することを目的にそれらの事業を束ねる持ち株会社としてSyn.ホールディングス（株）、その中心を担う企業としてSupership（株）を設立。「すべてが相互につながる『よりよい世界』を実現する」というビジョンのもと、広告事業・インターネットサービス事業・プラットフォーム事業等の事業基盤を活かした新たな価値の提供を目指し、 2015年11月1日にKDDI傘下の3社が合併して発足。今後、スマートフォン最大規模の顧客接点とデータ利活用により、お客様のご期待に応える新たなサービスの提供を目指していきます。事業内容：インターネットサービス事業、広告事業、PF事業、その他所在地：東京都港区南青山5-4-35 たつむら青山ビ

somemo 2020/08/04

リンク

Datadogでdockerコンテナを監視を始めたときのメモ - Qiita

この記事について AWSのEC2(なお、OSはAmazon Linux2)上に配置しているairflowのログ収集をdatadogに任せたく、チュートリアルに従って設定を行ったら本当に一瞬で終わってしまったので、メモがてら残しておく。datadog agentは参考記事1にならいdockerイメージ版を利用した。設定にあたっては、公式ドキュメント2にある一番シンプルなスクリプトに環境変数をいくつか追加している。やったこと下記のシェルスクリプトを実行しただけ。本当にそれだけ。 #!/bin/bash -eu DOCKER_CONTENT_TRUST=1 \ docker run -d --name datadog-agent -v /var/run/docker.sock:/var/run/docker.sock:ro \ -v /proc/:/host/proc/:ro \ -v /

somemo 2020/08/04

リンク

07-203_Notebook as Web API: Turn your notebook into Web API(横石和貴)

somemo 2020/08/04

リンク

I Don't Like Notebooks - Joel Grus - #JupyterCon 2018

I Don't Like Notebooks hi, I'm Joel, and I don't like notebooks Joel Grus (@joelgrus) #JupyterCon 2018

somemo 2020/08/04

リンク

Amazon Auroraのbinlogを有効にしAmazon MySQLにレプリケートしてみる | DevelopersIO

はじめに Aurora は本家 MySQL とはことなり binlog によらないレプリケーションを採用しており、プレビューの当初は binlog を有効にできませんでした。いつからか Aurora が binlog 対応したようなので、この機能をつかって Amazon Aurora から Amazon MySQL にレプリケートしてみたいと思います。全体の流れ同じ VPC 内に RDS for Aurora RDS for MySQL を起動します。その後、Aurora の binlog パラメーターを有効にし、この binlog をもとに MySQL にレプリケートさせます。レプリケート方法は次のドキュメントと同等の手順をとります。 Amazon RDS の外部で実行される MySQL インスタンスとのレプリケーション RDS インスタンスの起動 RDS for Aurora

somemo 2020/08/04

リンク

MySQLでALTER TABLEでINDEXを作成するときの注意事項

こんにちは。Ops側の小宮です。ある日朝来たら突然開発の方から相談いただいたので、後のために記録しておこうと思います。相談内容： jenkinsで本番デプロイを行ったが、処理を途中停止した。 (CakeのDBマイグレーションスクリプトでデプロイした） KEYカラムにINDEXをはろうとしたがDBの応答がなくなり接続できなくなった。結果としてテーブルが破損したためRDSの時刻指定してロールバックする機能を用いた。 (ALTERが終わってたかどうかとかはロールバックしたので不明) 同じレコード数の試験環境で同じ操作をしたら特に異常なくすんなり終わった。もう一回同じことを本番でやりたいけどどうしましょう。 MySQLのバージョンは5.5.27。私の個人的認識：普通、ALTERする時はロックがかかるから、事前に同じ構成と件数の試験環境でかかる時間を見積もってからその時間サービス止め

somemo 2020/08/04

リンク

Prediction at Scale with scikit-learn and PySpark Pandas UDFs

somemo 2020/08/04

リンク

PySparkでscikit-learnの学習済モデルを使った推論をする - Qiita

はじめに PySparkで機械学習を行う際、MLライブラリでは機能が不十分であることもあり、scikit-learnなど他のライブラリを利用したいと思うことがある。その際の学習は、そもそもSparkのDataFrameが対応していないので別途行う必要があるが、推論についてはUDFを使えばスムーズにできるので、備忘として掲載。 ※ここでは推論についてのみ扱い、学習自体は扱わないやり方学習済みのモデル(model: scikit-learnのイメージ)がある時、以下のように行えばよい。 dataが推論データのDataFrameで、featuresは説明変数のリストである。ここでは、model.predict(x)で予測した結果を返しており、作成したモデルの予測関数に適宜入れ替える必要がある。同様に、返り値が連続値になる場合は、DoubleType()などに変更する。 import p

somemo 2020/08/04

リンク

Python で from import を reload する。 - graphics.hatenablog.com

※ このエントリは Maya Python Advent Calendar 2017 - Qiita の 3 日目です。 ※ エントリ中に挙がってるコードの改善版はこちら Maya-Python といえば reload ですね。 reload といえば from import ですね。つらいのでなんとかします。前置きそもそもなんで reload するのか？なんで from import したいのか？ from import すると何が困るのか？状況の把握状況のまとめ解決策とりえあず __init__.py を exec してみる。 from import されているモジュールとシンボルを特定するテキスト解析抽象構文木逆アセンブル名前空間内にあるシンボルを書き換える解決策のまとめ全体のまとめ前置き Maya-Python あるいは Python をよく知らない

somemo 2020/08/04

“公式の対処法「reload したあとに必要に応じて from import しなおす」「そもそも from import を使わない」。前者は「from import しているもの」を完全に把握している場合しか使えないし、後者は前述の理由で使いたくない。”

リンク

pyclusteringのxmeansの一部をsklearn風にラッパーする - Qiita

動機 k-means法では最初にクラスタ数を決めなければいけないが、x-means法なら自動的に決めてくれる（最適なクラスタ数かどうかはわからないが）。そこでpyclusteringのxmeansを見つけたが使い方がsklearnのスタイルと違ったため使いづらかった。そこで今回はpyclusteringのxmeans.fitについてsklearn風にラッパーしたいと思う。問題点 sklearnのk-meansとpyclusteringのx-meansの大きな違いはskleranでいうlabel_の配列の返し方が違うところだ。例えば標本としてsamples = [a,b,c,d]があり(a,b,c,d) = (0,1,0,1)でクラスタリングされたとする。 skleranのlabel_は[0,1,0,1]と標本配列と同じ順番にクラスタ番号の配列を返す。 pyclusteringでいうところ

somemo 2020/08/04

リンク

PyClustering

somemo 2020/08/04

リンク

自動でクラスタ数を決めてくれるクラスタリング G-means - Qiita

この記事はfreee データに関わる人たち Advent Calendar 2019 6日目のエントリーです。前日の夜中に書きはじめてヒーヒー言いながら書いています。はじめに PyClusteringというライブラリを皆さんご存知でしょうか。PyClusteringはPythonとC++から利用できるクラスタリングに特化したライブラリです。そんなPyClustering v0.9.2にG-meansというアルゴリズムが新しく実装されました。G-meansという名前を初めてみた + 日本語の記事が見当たらなかったので調べてまとめてみました。アルゴリズム自体はシンプルなので論文を直接読んで頂くのが一番分かりやすいかも知れません。 G-meansはK-meansを拡張したものでK-meansのパラメータであったクラスタ数を自動で決定してくれるアルゴリズムです。似たような方法にX-mean

somemo 2020/08/04

https://pyclustering.github.io/

リンク

効果検証入門 4・5章をPythonで書く - Qiita

はじめに効果検証入門～正しい比較のための因果推論／計量経済学の基礎内のソースコードをPythonで再現します。既に素晴らしい先人の実装例がありますが、自分の勉強用のメモとして残しておきます。この記事では、4・5章について記載します。コードは、githubにも掲載しています。なお、変数名や処理内容は、基本的に書籍内に寄せて実装します。 CausalImpact ここでは、pycausalimpactを使って実装する。 R版と結果が一致しないが、これはREADMEに書いてある通りで、扱っている手法が異なるからみたい。引数のmodelで状態空間モデルを指定することができるようだが、R版と実装を合わせるのは骨が折れそうなので断念。 from causalimpact import CausalImpact impact = CausalImpact(CI_data, pre_peri

somemo 2020/08/04

リンク

PySparkでspark-testing-baseを使ってみる - Qiita

概要 spark用のテストライブラリのspark-testing-baseをPySparkでどのように使うかを軽く調べてみた。調べたこと unittest2のTestCaseを継承しており、unittest2.main()でテスト実行できるクラス内部でspark contextを立ち上げており、テストでわざわざ自力で立ち上げる必要がない自分でspark contextを立ち上げていると、テスト実行時にエラーになる DataFrameの場合、スキーマと件数と各レコードの並びが一致するかを確認しているみたい from sparktestingbase.sqltestcase import SQLTestCase import unittest2 class DataFrameTest(SQLTestCase): def test_expected_equal(self): data =

somemo 2020/08/04

リンク

Spark Meetup Tokyo #1 (Spark+AI Summit 2019) 勉強会メモ - Qiita

概要 Spark Meetup Tokyo #1 (Spark+AI Summit 2019) Spark+AI Summit 2019で発表があったSparkの最新開発状況，ユーザからのユースケース報告，関連OSSであるKoalas/MLflow/Delta Lakeなどに関する情報をお伝えします．発表内容 SPARK+AI Summitセッションハイライト関連: Spark+AI Summit 2019参加レポート Keynote Databricksによる新機能の紹介 koalas MLflow Delta Lake Delta Lake データレイクの課題安全な読み書きが難しい書き込み中のデータを使用する場合等結果を再現するのが難しい同じデータでも更新されている気軽にデータを投入できる反面、データのバリデーションが大変データが肥大化と共に、メタデータも肥大化し、ボト

somemo 2020/08/04

リンク

PySpark Usage Guide for Pandas with Apache Arrow - Spark 2.4.0 Documentation

somemo 2020/08/04

リンク

アドテクノロジー入門〜歴史と概要を学ぼう〜

somemo 2020/08/04

リンク

スケールする広告配信システムの作り方

somemo 2020/08/04

リンク

Koalas: pandas API on Apache Spark — Koalas 1.8.2 documentation

somemo 2020/08/04

リンク

GitHub - aws/sagemaker-spark: A Spark library for Amazon SageMaker.

somemo 2020/08/04

リンク

機械学習基盤/MLOpsまわりの勉強をしたときに参考にさせていただいた記事（2018.12時点） - Qiita

はじめに機械学習基盤/MLOpsについて知らなければと思い立ち、勉強したときに参考にさせていただいた記事の自分用メモです。 1. アーキテクチャ例 Apache Airflowでエンドユーザーのための機械学習パイプラインを構築する概要「本連載では、Apache Airflowを用いて機械学習の専門家ではないユーザー(=エンドユーザー)が、機械学習を活用するためのパイプラインの構築を目指します。」ポイント、所感既存の機械学習パイプラインがどのような処理を行なっているかをサーベイし、それを受けてApache Airflowで構築した事例機械学習パイプライン全体を俯瞰することができる Airflow流行っている？AWSでもマネージドサービス出して欲しい、、、。関連技術 Airflow,機械学習パイプライン Jupyter だけで機械学習を実サービス展開できる基盤概要 GCPを活用

somemo 2020/08/04

リンク

GitHub - aws-samples/aws-glue-samples: AWS Glue code samples

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

somemo 2020/08/04

リンク

はてなブックマーク

タグ

2020年8月4日のブックマーク (28件)

GitHub - Netflix/iceberg: Iceberg is a table format for large, slow-moving tabular data

Spark+AI Summit 2019参加レポート at San Francisco — Spark3.0/Koalas/MLflow/Delta Lake

Broadcast Joins (aka Map-Side Joins) · The Internals of Spark SQL

Delta Architecture

Koalas Talks and Blogs — Koalas 1.8.2 documentation

マルチクラウドで分析基盤を構築してみた Supership201612

検索サービス開発が絶対におもしろいと思う理由

Datadogでdockerコンテナを監視を始めたときのメモ - Qiita

07-203_Notebook as Web API: Turn your notebook into Web API(横石和貴)

I Don't Like Notebooks - Joel Grus - #JupyterCon 2018

Amazon Auroraのbinlogを有効にしAmazon MySQLにレプリケートしてみる | DevelopersIO

MySQLでALTER TABLEでINDEXを作成するときの注意事項

Prediction at Scale with scikit-learn and PySpark Pandas UDFs

PySparkでscikit-learnの学習済モデルを使った推論をする - Qiita

Python で from import を reload する。 - graphics.hatenablog.com

pyclusteringのxmeansの一部をsklearn風にラッパーする - Qiita

PyClustering

自動でクラスタ数を決めてくれるクラスタリング G-means - Qiita

効果検証入門 4・5章をPythonで書く - Qiita

PySparkでspark-testing-baseを使ってみる - Qiita

Spark Meetup Tokyo #1 (Spark+AI Summit 2019) 勉強会メモ - Qiita

PySpark Usage Guide for Pandas with Apache Arrow - Spark 2.4.0 Documentation

アドテクノロジー入門〜歴史と概要を学ぼう〜

スケールする広告配信システムの作り方

Koalas: pandas API on Apache Spark — Koalas 1.8.2 documentation

GitHub - aws/sagemaker-spark: A Spark library for Amazon SageMaker.

機械学習基盤/MLOpsまわりの勉強をしたときに参考にさせていただいた記事（2018.12時点） - Qiita

GitHub - aws-samples/aws-glue-samples: AWS Glue code samples

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス