当社は大規模に事業を行っていますが、機会の規模に比べると組織の規模はまだ十分ではありません。Stripe の採用情報にご興味のある方は、現在グローバルチームで募集中の職種をご覧ください。
![Stripe: 募集中の職種](https://cdn-ak-scissors.b.st-hatena.com/image/square/eda38307c71a5164363a4c6ae66c2fcfe3c4a81f/height=288;version=1;width=512/https%3A%2F%2Fstripe.com%2Fimg%2Fv3%2Fjobs_v2%2Fsocial.jpg)
当社は大規模に事業を行っていますが、機会の規模に比べると組織の規模はまだ十分ではありません。Stripe の採用情報にご興味のある方は、現在グローバルチームで募集中の職種をご覧ください。
Scale By the Bay 2019 is held on November 13-15 in sunny Oakland, California, on the shores of Lake Merritt: https://scale.bythebay.io. Join us! ----- Functional Reactive Programming for Feature Engineering in Machine Learning I will discuss the system we built at Stripe to enable modelers to quickly define complex features and have them for training and also in realtime for scoring.
Description Machine learning at Stripe has a foundation built on Python and the PyData stack, with scikit-learn and pandas continuing to be core components of an ML pipeline that feeds a production system written in Scala. This talk will cover the ML Infra team’s work to bridge the serialization and scoring gap between Python and the JVM, as well as how ML Engineers ship models to production. Abs
As machine learning techniques become more powerful, humans and companies are offloading more and more ethical decisions to ML models. Which person should get a loan? Where should I direct my time and attention? Algorithms often outperform humans, so we cede our control happily and love the extra time and leverage this gives us. There's lurking danger here. Many of the most successful machine lear
R&D部部長の 榊 です。今日は、当社におけるデータサイエンティストの定義と求められるべきスキルセットについて話したいと思います。 概要 下図のように当社における「データ分析を活用したSaasを開発する場合のデータサイエンティストの定義」を作りました。 既存の3つの定義から、良い部分を拝借しました。 各社ごとに、自社にあったデータサイエンティストを定義しておくのが重要ではないか? はじめに 当社は、「データとAIで意思決定をサポートする」を事業ミッションとして掲げており、特に去年から人工知能技術 (※) に長じた人材、言い方を変えればデータサイエンティストの採用と育成に力を入れてきました。しかし、特に社内で「データサイエンティストとは何か」の定義などを作ることもなく、当社に必要な人材のスキルを列挙し、そちらを募集要項に書くことで満足していました。 そんな中で、某強面の役員から、ある日 「そ
「パターン認識と機械学習」(PRML)読書会 #9 で担当する 7.2 章の資料です。 いつもついつい資料を作り込んでしまってたけど、今回は念願の「資料はアジェンダ+疑問点のまとめ」「板書メイン」になる予定。 7.2 関連ベクトルマシン SVM(support vector machine) と RVM(relevace vector machine) の対比 SVM RVM 疎 もっと疎 2値 確率 半正定値 正定値性不要 凸 非凸 O(N^2) O(N^3) 交差検定とか ARD サポートベクトル=マージン境界上 関連ベクトル=境界から離れた位置にも 7.2.1 回帰問題に対するRVM 【3章の復習】ベイズの枠組みでの線形回帰 1. モデル(条件付き確率) p(y|x,w,β) = N(y|w^T φ(x), β^-1) 2. 事前確率 p(w|α) = N(w|0, α^-1) 3.
【機械学習アドベントカレンダー2015 8日目】 ストリームデータ解析 という分野がある。ある生成元から絶えずデータが到来する環境で、いかにそれらを捌くかという話。「時間計算量はほぼ線形であって欲しいし、空間計算量も小さく抑えつつ精度を担保したいよね」ということを考える世界。個人的に最近はそのあたりの情報を追いかけていたので、整理も兼ねてその世界を俯瞰したい。 すごいリンク集 はじめに、この分野で外せないと思うリンクを3つ挙げておく。 ■ SML: Data Streams YahooやGoogleの研究所を経てCMUの教授をしているAlex Smola先生の講義の一部(スライド+動画あり)。理論からシステムアーキテクチャまで包括した実際的な機械学習ならこの人。この人の機械学習サマースクールの講義は最高だった。 古典的なものから最近のものまで、代表的なアルゴリズムについて直感的な説明といい
2015 -11 -25 IBMも追従!機械学習ライブラリ「SystemML」を公開 IT 機械学習 ほんの数日で 機械学習 ライブラリのオープン化が進み続けていますね。 Google の TensorFlow やMicrosftの DMLT の公開。 そして今回は IBM の SystemML 。 といっても私が気がついていなかっただけで、2015年の6月に公開していたのですがっ。 SystemMLライブラリは Github に公開されています。 SystemMLのGitHub TensorFlow や DMLT との大きな違いは、 Java で記述されていることですね。 それに、主要OSの Windows 、 MacOS , Linux のどれでも環境を構築できるようです。 個人的に TensorFlow を扱ってみようと思ったんですが、どうにも Windows で利用するには 難
TensorFlowとは2015/11/9にオープンソース化されたGoogleの機械学習ライブラリです。この記事ではディープラーニングと言われる多層構造のニューラルネットワークをTensorFlowを利用して構築しています。 TensorFlowはPythonから操作できますがバックエンドではC++で高速に計算しています。macのPython2.7系環境でTensorFlowの上級者用チュートリアルを行い、手書き認識率99.2%の多層構造の畳み込みニューラルネットワークモデルの分類器を構築したときの作業メモです。特別な設定なしにCPU使用率270%メモリ600MByteとちゃんと並列計算してくれました。MNISTランキングを見ると認識率99.2%は上位のモデルとなるようです。 TensorFlowチュートリアル TensorFlowの初心者用と上級者用チュートリアル2つに取り組んでみました
PyDataTokyoに触発されたので、Kaggleで上位を取るための戦略、そして神々に近づくための学習戦略を考えてみました。 kaggle master (自慢)ではありますが、kaggle歴は浅いので、いろんな突っ込みどころがあると思います。 1. 初参加 ~ top25% まずはtitanicのtutorialを始めてみる 終わったら、ちゃんとポイントのもらえる本番コンペに参加する お遊びコンペだとなかなか気合いが入らないので(人によります) いろんなコンペがあるが、とりあえず興味があるのに参加してみる 無理そうならあきらめる beat the benchmark(btb)というのがForumに出てくるので、まずはbeat the beat the benchmarkを目指す。これができればtop25%とか行けるのではなかろうか。 ツールの使い方を覚える良い機会 btbは特徴量をそん
人工知能(AI)やビッグデータ分析などで大きな注目を集めるディープラーニング(深層学習)。「Caffe」や「Torch」、「Chainer」など、同分野の研究者らが開発したオープンソースソフト(OSS)のフレームワークが既に利用可能となっているが(日経エレクトロニクス関連記事)、ここに一石を投じるのが米Skymind社だ。 既存のフレームワークの多くがPythonベースであるのに対し、Skymind社が手掛けるディープラーニングフレームワーク「DL4J(Deeplearning4j)」は、Java仮想マシン(JVM)上で動作するのが特徴だ。エンタープライズ向けのアプリケーションサーバーで動作させることができ、企業が持つ既存の情報システムと組み合わせて運用しやすい。 Skymind社創業者のAdam Gibson氏は「研究開発用途ではなく、エンタープライズで使える商用レベルのディープラーニン
(訳注:2016/1/5、いただいた翻訳フィードバックを元に記事を修正いたしました。) よくある主観的で痛烈な意見を題名に付けたクリックベイト(クリック誘導)記事だろうと思われた方、そのとおりです。以前指導してくれた教授から教わったある洞察/処世術は、些細でありながら私の人生を変えるマントラとなったのですが、私がこの記事を書いたのはそれによるものです。「同じタスクを3回以上繰り返す必要があるなら、スクリプトを書いて自動化せよ」 そろそろ、このブログはなんだろうと思い始めているのではないでしょうか。半年振りに記事を書いたのですから。ツイッターで書いた Musings on social network platforms(ソーシャル・ネットワークプラットフォームについてじっくり考える) はさておき、この半年の間書き物をしていないというのはうそです。正確には、400ページの 本 を書きました。
前回の前編では「最小二乗法」を紹介する中で、機械学習は数多くのことを仮定して、その中で一番良い答えを見つけるものだということを見てもらいました。 特に「最小二乗法」でデータ点から直線を推定する場合、次の3つのことを仮定していたことを学びました。 変数間の関係を関数で表す 関数のモデルは直線(1次式)を考える パラメータを選ぶ指標として二乗誤差を用いる 今回はこれらの仮定を振り返りながら、一般化された、より柔軟な機械学習の手法を紹介しましょう。 戻らないけど「回帰」 先ほどの仮定の1番目、「変数間の関係を関数で表す」ことを機械学習では「回帰」と呼びます。つまり機械学習の世界で「回帰問題を解く」といった場合は、この仮定をしていることになります。 「回帰」という言葉の由来 「どうして関数を求めることを『回帰』と呼ぶの? 何か戻るの?」と思うかもしれません。この名前は、もともと「平均回帰」という
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く