Sign in

EF15形は高性能な電気機関車であったが、引き出し性能が蒸気機関車に劣ると誤解されていた。 誤った運転方法により本来の性能を引き出せていなかったのである。 (spaceaero2 [CC BY 3.0], ウィキメディア・コモンズより) こんにちは、エムスリー・エンジニアリングG・基盤開発チーム小本です。 WEBサイトは RailsやSpringなどの「本体部分」だけでは完結しません。レポート作成・データ更新などの細かい処理も必要です。 過去にはこうした用途にはBashがよく使われました。しかし、Bashは落とし穴が多かったり、クラスなどの抽象化機能がなかったりして、規模が大きくなると辛くなります。 そこで、Bashの代替候補に挙がるのがPythonです。エムスリーでもかつてはBashを使っていましたが、現在は新規案件にはPythonを推奨しています。 しかし、実際にPythonで書き直そ
前処理大全の「分割」の章では、予測モデルの評価のためのデータセット分割方法が解説されています。基礎から時系列データへ適用する際の注意まで説明されているだけでなく、awesomeなコードの例がRおよびPythonで書かれており、実践的な側面もあります(お手元にぜひ!)。 しかし今回は、Awesome例とは異なる、より新しいやり方で・簡単にRでのデータ分割を行う方法を紹介したいと思います。前処理大全でも取り上げられているcaretパッケージですが、その開発者のMax Kuhnが開発するパッケージの中に rsample を使う方法です。ここでは前処理大全で書かれている一般的なデータと時系列データの交差検証による分割をrsampleの使い方を紹介しながらやっていきます。加えて、rsampleの層化サンプリングについても最後に触れます。 1. レコードデータにおけるモデル検証用のデータ分割 zeal
はじめに 本稿では,Hyperband[Li 18]とベイズ最適化を組み合わせた手法であるBOHB[Falkner 18]について解説する. 今回実験は行わないが,実験をする場合は,著者らが公開しているOSSであるHpBandSterを利用して実験を行うのが良さそうなので,適宜そちらを参照されたい. ベイズ最適化 ベイズ最適化の概要についてはこちらの記事で解説を行っているため,本稿では省略する. ベイズ最適化に用いられるsurrogate functionとしてはGaussian Processが有名だが,サンプル数$n$に対して時間計算量が$\mathcal{O}(n^3)$となるため,サンプル数を大きくすると実用的に使いづらくなるという問題点が存在する. そこでBOHBでは,サンプル数$n$に対して$\mathcal{O}(n)$で計算できるTree-structured Parzen
こんにちは、リブセンスで統計や機械学習関係の仕事をしている北原です。今回はレコメンデーションにも使えるFactorization Machines(FM)の効率的な学習アルゴリズムの紹介です。実装にはJuliaを使います。 実務で必要な要件を満たす機械学習ライブラリがなくて、機械学習モデルをカスタマイズすることってありますよね。最近はTensorFlowのような機械学習フレームワークが充実してきたので、そういう場合にはこれらのフレームワークを利用することが多いかもしれません。しかし、アルゴリズムによっては、フルスクラッチで実装することで大幅に効率化できるものもあります。今回扱うFMのAlternating Least Squares(ALS) はその一例です。そこで使われている効率化方法は実装が簡単でギブスサンプリングなどでも使うことができる便利なものなのですが、あまり知られていないようで
generative adversarial network(GAN)からWasserstein generative adversarial network(WGAN)への道の整理をします。 こちらを参考にしました: [1904.08994] From GAN to WGAN From GAN to WGAN 目次 Kullback–Leibler Divergence (KL divergence) と Jensen–Shannon Divergence (JS divergence) Kullback–Leibler Divergence Jensen–Shannon Divergence GAN GANの目的関数 密度比推定との関連 Discriminatorの最適解 What is global optimal? GANの目的関数が意味すること GANの問題点 Wasserste
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト はじめに 仕事で生存時間分析を使うことは結構あるのですが、マーケティングの良いデータセットがない印象でブログにしにくいと感じていました。また、Stanでの生存時間分析の事例もあまり把握していません。そこで使えそうなデータセットやStanのコードを探して、そのデータに対して生存時間分析を適用してみたいと思います。 目次 ・生存時間分析とは ・生存時間分析で使えるデータ ・生存時間分析をマーケティングで使う際の用途 ・先行研究 ・生存時間分析で使えるデータセット ・Sta
これはなに? Kaggleのテーブルデータコンペに参加するときに役立つ(と思う)Tipsを Kaggle Coursera の授業メモに色々追記する形でまとめたものです 自分で理解できている内容を中心にまとめました。各種資料の内容はまだまだ理解できていない内容が多く、今後も随時更新していきます(随時更新できるように勉強します)。 この記事に書いてあるTipsをどのように活かしたかはKaggle参戦記に書いたので、併せてどうぞ。 参考文献 主として以下の資料の内容をピックアップさせていただきました。引用を明記していない部分は(ほぼ100%) Kaggle Coursera の内容です。 Kaggle Coursera kaggle_memo by nejumiさん Kaggleで世界11位になったデータ解析手法〜Sansan高際睦起の模範コードに学ぶ Kaggle TalkingData F
初めに サイボウズ・ラボの光成です。 DNN(deep neural network : 深層学習)といえばGPUや専用プロセッサを使うのが主流です。 しかしIntelはCPUで高速にDNNをするためのライブラリ MKL-DNN を提供しています。 MKL-DNNはIntelの最新CPUに対応したオープンソースソフトウェアなのでコードを見ると勉強になります。 ここではMKL-DNNで使われているテクニックをいくつか紹介します。 概要 MKL-DNNの紹介 Xbyakの紹介 呼び出し規約 圧縮displacement ReLU exp 内積 vpdpbusd キャッシュコントロール 想定読者 C++11とx64 CPUのアセンブリ言語の知識をある程度仮定します。 機械学習についてはその知識がなくても最適化手法が理解できるよう、最小限の説明をします。 MKL-DNNの特長 まずMKL-DNNの
TL;DR アウトオブコア、かつマルチコアでデータ処理を行えるVaexの紹介です。 string関係のメソッドで平均して100倍以上の高速化が確認できました。(作者のベンチマークだと最大1000倍) 文字列処理以外でも数倍~数十倍の高速化が行えそうです。 この記事では性能の比較のみ行い、解説記事は別で書こうと思います。 pandasより1000倍早いフレームワーク? 今週、興味深い記事を読みました。重要な部分だけ抜き出すと次のような内容です。 Vaexの最近のアップデートでの文字列処理が超早くなった 32コアだとpandasと比べて1000倍早い towardsdatascience.com 1000倍って本当なの?って感じですよね。そもそも自分はVaex自体を知らなかったので調べてみました。 ちなみに調べていて気づいたのですが、この記事の著者はVaexの作者なんですよね。 疑っているわけ
はじめに 近年計量経済学と機械学習の融合分野の研究が盛り上がりを見せています. 例えば, KDD2018やNeurIPS2018で関連のTutorialが開催されるなどしています. その流れの一つとしてMicrosoft ResearchがEconMLというパッケージを公開していて非常に有用だと思ったので簡単に紹介します. 目次 Conditional Average Treatment Effects Estimation EconMLとは Meta-Learners 用法と簡易実験 さいごに 参考 Conditional Average Treatment Effects Estimation ある特徴量で条件付けた際の介入の因果効果の期待値を Conditional Average Treatment Effects Estimation (CATE)と呼び, 次のように表されます.
2乗して-1になる数「」と、実数を使って「」と表される数を複素数といいます。 複素数は、和をとったり積をとったり逆数をとったりといろいろできるわけですが、それらを図示してみるときれいな構造が見えることがあります。 この記事は、細かい解説はそこそこにして、複素数を眺めてうわ〜きれいだね〜素敵だね〜っていう記事です。 複素平面 任意の複素数は、平面上の一点として表すことができます。 今でこそ「複素数といえば平面」というイメージがあるかもしれませんが、「複素数を平面上の一点として表す」というのは驚くほど画期的なアイデアです。 それまで、複素数は「方程式を解く途中にだけ出てきて、いざ解かれたあかつきには消えてしまう」という「便宜的な数」「虚構の数」と思われていました。 ガウスによって「複素平面」のアイデアが導入されてようやく複素数が図形的な表れを伴った。複素数にはそんな歴史があるようです。 複素数
私達ExploratoryもSaaS(Software-as-a-Service)のビジネスモデル、つまり毎月(または毎年)のサブスクリプションによる課金によってお金を稼ぐというモデルです。これは、従来型のライセンスを売り切る形のビジネスモデルとは大きく違うので、ビジネスの状態を知るための指標も大きく変わってきます。 そこでMRR(Monthly Recurring Revenue)、Churn Rate(離脱率)、CLTV(Customer Life Time Value / 顧客生涯価値)、コンバーション率、CAC(Customer Acquisition Cost)などといった指標を定期的にモニターしていくことになるのですが、ここで問題があります。 こうした指標は後追い指標であり、例えば月末や期末にその数値を知った後では反省会はできますが、もうこの数字を変えることはできません。 ビジ
Written by: Alicja Gosiewska In applied machine learning, there are opinions that we need to choose between interpretability and accuracy. However in field of the Interpretable Machine Learning, there are more and more new ideas for explaining black-box models. One of the best known method for local explanations is SHapley Additive exPlanations (SHAP). The SHAP method is used to calculate influenc
こんにちは、株式会社サイバーエージェント 秋葉原ラボでデータ分析をしている鈴木元也と武内慎です。この度サイバーエージェントグループでの技術カンファレンスCA BASE CAMP 2019にて登壇させていただきました、「スマートなランキングの作り方 〜AWA、REQUへの適用事例〜」について解説させていただきます。 ランキングと聞くと “単純に数値を集計し、並び替えたリストを出せば終わり” と考えている人は多いのではないでしょうか?しかし、作ってみると思ったより考えることが多くて苦労した経験がある人は多少なりともいるかと思います。そんな人を今後増やさないために、スマートなランキングの作り方をまとめました。 ここでは幅広いサービスで適応できるように一般化したランキングの作成方法と AWA、REQUという2つのサービスのランキング作成事例についてご紹介いたします。 2つの重要なポイント ランキン
このブログは古い記事です。 最新の情報は、移行先のブログをご覧ください。 phayacell.hatenablog.com はじめに この度、macOS High Sierra (10.13.4) にアップデートしました。 せっかくなので、クリーンインストールして作り直したので、備忘として残しておきます。 まだエンジニア向けのものは入れられていないので、後日追記します。 はじめに Mac App Store よりインストール Alfred 1Password Spark - Love your email again Fantastical 2 その他でインストール Google 日本語入力 Authy Avast Boostnote Clipy Dropbox ForkLift 3 Google Chrome HyperSwitch iTerm2 Karabiner-Elements タ
こんにちは!マッチングエージェントでSREのリーダーをしている袴田です。 2019年2月に社内の技術カンファレンスCA BASE CAMPにて登壇したため、その内容を紹介させてもらいます。 当日の発表では、タップルSREの活動内容と、今後タップルの成長をSREとしてどのように支えてくかについて話しました。本記事では、当日の発表スライドを元に内容をかいつまんで紹介していきます。 サービス紹介 タップルは、若い男女が趣味で繋がる恋活サービスというコンセプトでアプリを運営しています。 2019年の時点では、マッチングアプリを20代から30代の若者の5人に1人が使う時代になりました。マッチングアプリに対する世間のイメージもクリーンに変わりつつあります。 タップルSREの設立背景 マッチングアプリの普及拡大に伴いマッチング市場も激化しています。新たな顧客価値を他社よりも早く市場に投入するため、現在タ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く