horihorioのブックマーク - はてなブックマーク

Google Colab

Sign in

horihorio 2019/07/09

Google
stat

リンク

この処理Pythonでどう書く？ - エムスリーテックブログ

EF15形は高性能な電気機関車であったが、引き出し性能が蒸気機関車に劣ると誤解されていた。誤った運転方法により本来の性能を引き出せていなかったのである。（spaceaero2 [CC BY 3.0], ウィキメディア・コモンズより）こんにちは、エムスリー・エンジニアリングG・基盤開発チーム小本です。 WEBサイトは RailsやSpringなどの「本体部分」だけでは完結しません。レポート作成・データ更新などの細かい処理も必要です。過去にはこうした用途にはBashがよく使われました。しかし、Bashは落とし穴が多かったり、クラスなどの抽象化機能がなかったりして、規模が大きくなると辛くなります。そこで、Bashの代替候補に挙がるのがPythonです。エムスリーでもかつてはBashを使っていましたが、現在は新規案件にはPythonを推奨しています。しかし、実際にPythonで書き直そ

horihorio 2019/06/21

python
bash

リンク

Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証 - 株式会社ホクソエムのブログ

前処理大全の「分割」の章では、予測モデルの評価のためのデータセット分割方法が解説されています。基礎から時系列データへ適用する際の注意まで説明されているだけでなく、awesomeなコードの例がRおよびPythonで書かれており、実践的な側面もあります（お手元にぜひ！）。しかし今回は、Awesome例とは異なる、より新しいやり方で・簡単にRでのデータ分割を行う方法を紹介したいと思います。前処理大全でも取り上げられているcaretパッケージですが、その開発者のMax Kuhnが開発するパッケージの中に rsample を使う方法です。ここでは前処理大全で書かれている一般的なデータと時系列データの交差検証による分割をrsampleの使い方を紹介しながらやっていきます。加えて、rsampleの層化サンプリングについても最後に触れます。 1. レコードデータにおけるモデル検証用のデータ分割 zeal

horihorio 2019/06/10

リンク

ベイズ最適化とHyperbandを組み合わせた手法「BOHB」の解説 | Masahiro Nomura

はじめに本稿では，Hyperband[Li 18]とベイズ最適化を組み合わせた手法であるBOHB[Falkner 18]について解説する．今回実験は行わないが，実験をする場合は，著者らが公開しているOSSであるHpBandSterを利用して実験を行うのが良さそうなので，適宜そちらを参照されたい．ベイズ最適化ベイズ最適化の概要についてはこちらの記事で解説を行っているため，本稿では省略する．ベイズ最適化に用いられるsurrogate functionとしてはGaussian Processが有名だが，サンプル数$n$に対して時間計算量が$\mathcal{O}(n^3)$となるため，サンプル数を大きくすると実用的に使いづらくなるという問題点が存在する．そこでBOHBでは，サンプル数$n$に対して$\mathcal{O}(n)$で計算できるTree-structured Parzen

horihorio 2019/05/30

リンク

Alternating Least SquaresによるFactorization Machinesのパラメータ推定 - LIVESENSE Data Analytics Blog

こんにちは、リブセンスで統計や機械学習関係の仕事をしている北原です。今回はレコメンデーションにも使えるFactorization Machines(FM)の効率的な学習アルゴリズムの紹介です。実装にはJuliaを使います。実務で必要な要件を満たす機械学習ライブラリがなくて、機械学習モデルをカスタマイズすることってありますよね。最近はTensorFlowのような機械学習フレームワークが充実してきたので、そういう場合にはこれらのフレームワークを利用することが多いかもしれません。しかし、アルゴリズムによっては、フルスクラッチで実装することで大幅に効率化できるものもあります。今回扱うFMのAlternating Least Squares(ALS) はその一例です。そこで使われている効率化方法は実装が簡単でギブスサンプリングなどでも使うことができる便利なものなのですが、あまり知られていないようで

horihorio 2019/05/29

リンク

GANからWasserstein GANへ - Engineering note

generative adversarial network(GAN)からWasserstein generative adversarial network(WGAN)への道の整理をします。こちらを参考にしました： [1904.08994] From GAN to WGAN From GAN to WGAN 目次 Kullback–Leibler Divergence (KL divergence) と Jensen–Shannon Divergence (JS divergence) Kullback–Leibler Divergence Jensen–Shannon Divergence GAN GANの目的関数密度比推定との関連 Discriminatorの最適解 What is global optimal? GANの目的関数が意味すること GANの問題点 Wasserste

horihorio 2019/05/23

ml
stat

リンク

[Stan]生存時間分析のコードと便利なデータセットについて – かものはしの分析ブログ

都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリストはじめに仕事で生存時間分析を使うことは結構あるのですが、マーケティングの良いデータセットがない印象でブログにしにくいと感じていました。また、Stanでの生存時間分析の事例もあまり把握していません。そこで使えそうなデータセットやStanのコードを探して、そのデータに対して生存時間分析を適用してみたいと思います。目次・生存時間分析とは・生存時間分析で使えるデータ・生存時間分析をマーケティングで使う際の用途・先行研究・生存時間分析で使えるデータセット・Sta

horihorio 2019/05/16

stan
r

リンク

AI自動翻訳『お試しAI翻訳』by みらい翻訳

翻訳ソフトはAI自動翻訳のみらい翻訳。企業利用の正確な機械翻訳ツール。製品版はPDF翻訳が可能。Webサイト翻訳や生成AIによる英文作成もOK

horihorio 2019/05/08

リンク

What is Featuretools? — Featuretools 0.11.0 documentation

horihorio 2019/05/07

python
stat

リンク

【随時更新】Kaggleテーブルデータコンペできっと役立つTipsまとめ - ML_BearのKaggleな日常

これはなに？ Kaggleのテーブルデータコンペに参加するときに役立つ(と思う)Tipsを Kaggle Coursera の授業メモに色々追記する形でまとめたものです自分で理解できている内容を中心にまとめました。各種資料の内容はまだまだ理解できていない内容が多く、今後も随時更新していきます(随時更新できるように勉強します)。この記事に書いてあるTipsをどのように活かしたかはKaggle参戦記に書いたので、併せてどうぞ。参考文献主として以下の資料の内容をピックアップさせていただきました。引用を明記していない部分は(ほぼ100%) Kaggle Coursera の内容です。 Kaggle Coursera kaggle_memo by nejumiさん Kaggleで世界11位になったデータ解析手法〜Sansan高際睦起の模範コードに学ぶ Kaggle TalkingData F

horihorio 2019/04/17

リンク

MKL-DNNで学ぶIntel CPUの最適化手法 - Cybozu Inside Out | サイボウズエンジニアのブログ

初めにサイボウズ・ラボの光成です。 DNN（deep neural network : 深層学習）といえばGPUや専用プロセッサを使うのが主流です。しかしIntelはCPUで高速にDNNをするためのライブラリ MKL-DNN を提供しています。 MKL-DNNはIntelの最新CPUに対応したオープンソースソフトウェアなのでコードを見ると勉強になります。ここではMKL-DNNで使われているテクニックをいくつか紹介します。概要 MKL-DNNの紹介 Xbyakの紹介呼び出し規約圧縮displacement ReLU exp 内積 vpdpbusd キャッシュコントロール想定読者 C++11とx64 CPUのアセンブリ言語の知識をある程度仮定します。機械学習についてはその知識がなくても最適化手法が理解できるよう、最小限の説明をします。 MKL-DNNの特長まずMKL-DNNの

horihorio 2019/04/16

リンク

Pandasで行うデータ処理を100倍高速にするOut-of-CoreフレームワークVaex - フリーランチ食べたい

TL;DR アウトオブコア、かつマルチコアでデータ処理を行えるVaexの紹介です。 string関係のメソッドで平均して100倍以上の高速化が確認できました。(作者のベンチマークだと最大1000倍) 文字列処理以外でも数倍~数十倍の高速化が行えそうです。この記事では性能の比較のみ行い、解説記事は別で書こうと思います。 pandasより1000倍早いフレームワーク？今週、興味深い記事を読みました。重要な部分だけ抜き出すと次のような内容です。 Vaexの最近のアップデートでの文字列処理が超早くなった 32コアだとpandasと比べて1000倍早い towardsdatascience.com 1000倍って本当なの？って感じですよね。そもそも自分はVaex自体を知らなかったので調べてみました。ちなみに調べていて気づいたのですが、この記事の著者はVaexの作者なんですよね。疑っているわけ

horihorio 2019/04/14

リンク

EconMLパッケージの紹介 (meta-learners編) - Counterfactualを知りたい

はじめに近年計量経済学と機械学習の融合分野の研究が盛り上がりを見せています. 例えば, KDD2018やNeurIPS2018で関連のTutorialが開催されるなどしています. その流れの一つとしてMicrosoft ResearchがEconMLというパッケージを公開していて非常に有用だと思ったので簡単に紹介します. 目次 Conditional Average Treatment Effects Estimation EconMLとは Meta-Learners 用法と簡易実験さいごに参考 Conditional Average Treatment Effects Estimation ある特徴量で条件付けた際の介入の因果効果の期待値を Conditional Average Treatment Effects Estimation (CATE)と呼び, 次のように表されます.

horihorio 2019/04/08

リンク

http://17.datavizday.by/upload/whitepapers/10%20Best%20Practices%20for%20Building%20Effective.pdf

horihorio 2019/04/05

リンク

【GIF多め】ギャラリー：目で見る複素数 - アジマティクス

2乗して-1になる数「」と、実数を使って「」と表される数を複素数といいます。複素数は、和をとったり積をとったり逆数をとったりといろいろできるわけですが、それらを図示してみるときれいな構造が見えることがあります。この記事は、細かい解説はそこそこにして、複素数を眺めてうわ〜きれいだね〜素敵だね〜っていう記事です。複素平面任意の複素数は、平面上の一点として表すことができます。今でこそ「複素数といえば平面」というイメージがあるかもしれませんが、「複素数を平面上の一点として表す」というのは驚くほど画期的なアイデアです。それまで、複素数は「方程式を解く途中にだけ出てきて、いざ解かれたあかつきには消えてしまう」という「便宜的な数」「虚構の数」と思われていました。ガウスによって「複素平面」のアイデアが導入されてようやく複素数が図形的な表れを伴った。複素数にはそんな歴史があるようです。複素数

horihorio 2019/04/03

math

リンク

SaaSにとって最も重要なのに誰も見てないKPI：プロダクト・エンゲージメント

私達ExploratoryもSaaS（Software-as-a-Service）のビジネスモデル、つまり毎月（または毎年）のサブスクリプションによる課金によってお金を稼ぐというモデルです。これは、従来型のライセンスを売り切る形のビジネスモデルとは大きく違うので、ビジネスの状態を知るための指標も大きく変わってきます。そこでMRR（Monthly Recurring Revenue）、Churn Rate（離脱率）、CLTV（Customer Life Time Value / 顧客生涯価値）、コンバーション率、CAC（Customer Acquisition Cost）などといった指標を定期的にモニターしていくことになるのですが、ここで問題があります。こうした指標は後追い指標であり、例えば月末や期末にその数値を知った後では反省会はできますが、もうこの数字を変えることはできません。ビジ

horihorio 2019/03/29

Business

リンク

shapper is on CRAN, it’s an R wrapper over SHAP explainer for black-box models - SmarterPoland.pl

Written by: Alicja Gosiewska In applied machine learning, there are opinions that we need to choose between interpretability and accuracy. However in field of the Interpretable Machine Learning, there are more and more new ideas for explaining black-box models. One of the best known method for local explanations is SHapley Additive exPlanations (SHAP). The SHAP method is used to calculate influenc

horihorio 2019/03/25

リンク

スマートなランキングの作り方〜AWA、REQUへの適用事例〜 | CA BASE CAMP | CyberAgent Developers Blog

こんにちは、株式会社サイバーエージェント秋葉原ラボでデータ分析をしている鈴木元也と武内慎です。この度サイバーエージェントグループでの技術カンファレンスCA BASE CAMP 2019にて登壇させていただきました、「スマートなランキングの作り方〜AWA、REQUへの適用事例〜」について解説させていただきます。ランキングと聞くと “単純に数値を集計し、並び替えたリストを出せば終わり” と考えている人は多いのではないでしょうか？しかし、作ってみると思ったより考えることが多くて苦労した経験がある人は多少なりともいるかと思います。そんな人を今後増やさないために、スマートなランキングの作り方をまとめました。ここでは幅広いサービスで適応できるように一般化したランキングの作成方法と AWA、REQUという2つのサービスのランキング作成事例についてご紹介いたします。 2つの重要なポイントランキン

horihorio 2019/03/22

リンク

macOS High Sierra にしてやったこと（2018年4月版） - h-yamashita.blog

このブログは古い記事です。最新の情報は、移行先のブログをご覧ください。 phayacell.hatena blog.com はじめにこの度、macOS High Sierra (10.13.4) にアップデートしました。せっかくなので、クリーンインストールして作り直したので、備忘として残しておきます。まだエンジニア向けのものは入れられていないので、後日追記します。はじめに Mac App Store よりインストール Alfred 1Password Spark - Love your em ail again Fantastical 2 その他でインストール Google 日本語入力 Authy Avast Boostnote Clipy Dropbox ForkLift 3 Google Chrome HyperSwitch iTerm2 Karabiner-Elements タ

horihorio 2019/03/20

mac
config

リンク

タップルSREはタップルの成長をどこまで支えられるか

こんにちは！マッチングエージェントでSREのリーダーをしている袴田です。 2019年2月に社内の技術カンファレンスCA BASE CAMPにて登壇したため、その内容を紹介させてもらいます。当日の発表では、タップルSREの活動内容と、今後タップルの成長をSREとしてどのように支えてくかについて話しました。本記事では、当日の発表スライドを元に内容をかいつまんで紹介していきます。サービス紹介タップルは、若い男女が趣味で繋がる恋活サービスというコンセプトでアプリを運営しています。 2019年の時点では、マッチングアプリを20代から30代の若者の5人に1人が使う時代になりました。マッチングアプリに対する世間のイメージもクリーンに変わりつつあります。タップルSREの設立背景マッチングアプリの普及拡大に伴いマッチング市場も激化しています。新たな顧客価値を他社よりも早く市場に投入するため、現在タ

horihorio 2019/03/14

リンク

はてなブックマーク

タグ

horihorioのブックマーク (2,876)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第2週）

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス