You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
こんにちは,NTTの山室です. 今回の記事は4/23–25にサンフランシスコで開催されたSpark+AI Summitの参加レポートになります.興味のある情報への良い足がかりになることを目的に,個人的にチェックした内容を浅く広めに取り上げます. 以下の公式サイトに大半の発表資料と動画が公開されていますので,興味がある方はそちらも併せて参照してください. Spark+AI Summit 2019 Agenda Summitの翌日に訪問した会場近くのDatabricks社Spark+AI Summitは現在年に2回アメリカ西海岸とヨーロッパで開催されているDatabricks(Sparkの作者が在籍する企業)主催のイベントです.特に毎年サンフランシスコで開催されるSummitは規模が大きく,今回世界中から5,000人を超える参加者が集まったそうです. この記事では個人的に興味を持った以下の内容
2. 2 Syn.ホールディングス/Supership 会社概要 ■設立の背景 ■Supership株式会社について KDDI におけるオープン領域事業拡大を推進することを目的に それらの事業を束ねる持ち株会社としてSyn.ホールディングス (株)、その中心を担う企業としてSupership(株)を設立。 「すべてが相互につながる『よりよい世界』を実現する」という ビジョンのもと、広告事業・インターネットサービス事業・プラッ トフォーム事業等の事業基盤を活かした新たな価値の提供を目指し、 2015年11月1日にKDDI傘下の3社が合併して発足。 今後、スマートフォン最大規模の顧客接点とデータ利活用により、 お客様のご期待に応える新たなサービスの提供を目指していきます。 事業内容: インターネットサービス事業、広告事業、PF事業、その他 所在地: 東京都港区南青山5-4-35 たつむら青山ビ
この記事について AWSのEC2(なお、OSはAmazon Linux2)上に配置しているairflowのログ収集をdatadogに任せたく、チュートリアルに従って設定を行ったら本当に一瞬で終わってしまったので、メモがてら残しておく。datadog agentは参考記事1にならいdockerイメージ版を利用した。 設定にあたっては、公式ドキュメント2にある一番シンプルなスクリプトに環境変数をいくつか追加している。 やったこと 下記のシェルスクリプトを実行しただけ。本当にそれだけ。 #!/bin/bash -eu DOCKER_CONTENT_TRUST=1 \ docker run -d --name datadog-agent -v /var/run/docker.sock:/var/run/docker.sock:ro \ -v /proc/:/host/proc/:ro \ -v /
はじめに Aurora は本家 MySQL とはことなり binlog によらないレプリケーションを採用しており、プレビューの当初は binlog を有効にできませんでした。いつからか Aurora が binlog 対応したようなので、この機能をつかって Amazon Aurora から Amazon MySQL にレプリケートしてみたいと思います。 全体の流れ 同じ VPC 内に RDS for Aurora RDS for MySQL を起動します。 その後、Aurora の binlog パラメーターを有効にし、この binlog をもとに MySQL にレプリケートさせます。 レプリケート方法は次のドキュメントと同等の手順をとります。 Amazon RDS の外部で実行される MySQL インスタンスとのレプリケーション RDS インスタンスの起動 RDS for Aurora
こんにちは。Ops側の小宮です。 ある日朝来たら突然開発の方から相談いただいたので、後のために記録しておこうと思います。 相談内容: jenkinsで本番デプロイを行ったが、処理を途中停止した。 (CakeのDBマイグレーションスクリプトでデプロイした) KEYカラムにINDEXをはろうとしたがDBの応答がなくなり接続できなくなった。 結果としてテーブルが破損したためRDSの時刻指定してロールバックする機能を用いた。 (ALTERが終わってたかどうかとかはロールバックしたので不明) 同じレコード数の試験環境で同じ操作をしたら特に異常なくすんなり終わった。 もう一回同じことを本番でやりたいけどどうしましょう。 MySQLのバージョンは5.5.27。 私の個人的認識: 普通、ALTERする時はロックがかかるから、 事前に同じ構成と件数の試験環境でかかる時間を見積もってから その時間サービス止め
はじめに PySparkで機械学習を行う際、MLライブラリでは機能が不十分であることもあり、scikit-learnなど他のライブラリを利用したいと思うことがある。 その際の学習は、そもそもSparkのDataFrameが対応していないので別途行う必要があるが、推論についてはUDFを使えばスムーズにできるので、備忘として掲載。 ※ここでは推論についてのみ扱い、学習自体は扱わない やり方 学習済みのモデル(model: scikit-learnのイメージ)がある時、以下のように行えばよい。 dataが推論データのDataFrameで、featuresは説明変数のリストである。 ここでは、model.predict(x)で予測した結果を返しており、作成したモデルの予測関数に適宜入れ替える必要がある。 同様に、返り値が連続値になる場合は、DoubleType()などに変更する。 import p
※ このエントリは Maya Python Advent Calendar 2017 - Qiita の 3 日目です。 ※ エントリ中に挙がってるコードの改善版は こちら Maya-Python といえば reload ですね。 reload といえば from import ですね。 つらいのでなんとかします。 前置き そもそもなんで reload するのか? なんで from import したいのか? from import すると何が困るのか? 状況の把握 状況のまとめ 解決策 とりえあず __init__.py を exec してみる。 from import されているモジュールとシンボルを特定する テキスト解析 抽象構文木 逆アセンブル 名前空間内にあるシンボルを書き換える 解決策のまとめ 全体のまとめ 前置き Maya-Python あるいは Python をよく知らない
動機 k-means法では最初にクラスタ数を決めなければいけないが、x-means法なら自動的に決めてくれる(最適なクラスタ数かどうかはわからないが)。そこでpyclusteringのxmeansを見つけたが使い方がsklearnのスタイルと違ったため使いづらかった。そこで今回はpyclusteringのxmeans.fitについてsklearn風にラッパーしたいと思う。 問題点 sklearnのk-meansとpyclusteringのx-meansの大きな違いはskleranでいうlabel_の配列の返し方が違うところだ。例えば標本としてsamples = [a,b,c,d]があり(a,b,c,d) = (0,1,0,1)でクラスタリングされたとする。 skleranのlabel_は[0,1,0,1]と標本配列と同じ順番にクラスタ番号の配列を返す。 pyclusteringでいうところ
この記事はfreee データに関わる人たち Advent Calendar 2019 6日目のエントリーです。 前日の夜中に書きはじめてヒーヒー言いながら書いています。 はじめに PyClusteringというライブラリを皆さんご存知でしょうか。PyClusteringはPythonとC++から利用できるクラスタリングに特化したライブラリです。そんなPyClustering v0.9.2にG-meansというアルゴリズムが新しく実装されました。G-meansという名前を初めてみた + 日本語の記事が見当たらなかったので調べてまとめてみました。 アルゴリズム自体はシンプルなので論文を直接読んで頂くのが一番分かりやすいかも知れません。 G-meansはK-meansを拡張したものでK-meansのパラメータであったクラスタ数を自動で決定してくれるアルゴリズムです。 似たような方法にX-mean
はじめに 効果検証入門 ~正しい比較のための因果推論/計量経済学の基礎内のソースコードをPythonで再現します。 既に素晴らしい先人の実装例がありますが、自分の勉強用のメモとして残しておきます。 この記事では、4・5章について記載します。 コードは、githubにも掲載しています。 なお、変数名や処理内容は、基本的に書籍内に寄せて実装します。 CausalImpact ここでは、pycausalimpactを使って実装する。 R版と結果が一致しないが、これはREADMEに書いてある通りで、扱っている手法が異なるからみたい。 引数のmodelで状態空間モデルを指定することができるようだが、R版と実装を合わせるのは骨が折れそうなので断念。 from causalimpact import CausalImpact impact = CausalImpact(CI_data, pre_peri
概要 spark用のテストライブラリのspark-testing-baseをPySparkでどのように使うかを軽く調べてみた。 調べたこと unittest2のTestCaseを継承しており、unittest2.main()でテスト実行できる クラス内部でspark contextを立ち上げており、テストでわざわざ自力で立ち上げる必要がない 自分でspark contextを立ち上げていると、テスト実行時にエラーになる DataFrameの場合、スキーマと件数と各レコードの並びが一致するかを確認しているみたい from sparktestingbase.sqltestcase import SQLTestCase import unittest2 class DataFrameTest(SQLTestCase): def test_expected_equal(self): data =
概要 Spark Meetup Tokyo #1 (Spark+AI Summit 2019) Spark+AI Summit 2019で発表があったSparkの最新開発状況,ユーザからのユースケース報告,関連OSSであるKoalas/MLflow/Delta Lakeなどに関する情報をお伝えします. 発表内容 SPARK+AI Summitセッションハイライト 関連: Spark+AI Summit 2019参加レポート Keynote Databricksによる新機能の紹介 koalas MLflow Delta Lake Delta Lake データレイクの課題 安全な読み書きが難しい 書き込み中のデータを使用する場合等 結果を再現するのが難しい 同じデータでも更新されている 気軽にデータを投入できる反面、データのバリデーションが大変 データが肥大化と共に、メタデータも肥大化し、ボト
はじめに 機械学習基盤/MLOpsについて知らなければと思い立ち、勉強したときに参考にさせていただいた記事の自分用メモです。 1. アーキテクチャ例 Apache Airflowでエンドユーザーのための機械学習パイプラインを構築する 概要 「本連載では、Apache Airflowを用いて機械学習の専門家ではないユーザー(=エンドユーザー)が、機械学習を活用するためのパイプラインの構築を目指します。」 ポイント、所感 既存の機械学習パイプラインがどのような処理を行なっているかをサーベイし、それを受けてApache Airflowで構築した事例 機械学習パイプライン全体を俯瞰することができる Airflow流行っている?AWSでもマネージドサービス出して欲しい、、、。 関連技術 Airflow,機械学習パイプライン Jupyter だけで機械学習を実サービス展開できる基盤 概要 GCPを活用
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く