@PyData.Tokyo One Day Conference 2018/10/20
KDD2018の感想です。AdKDDやネット広告方面は職場のBlogに書くので、こちらは他の話を。今年は因果推論のチュートリアルが超満員だったり、予測モデルの差別、解釈性と説明性「interpretable and explainable machine learning models」が注目されたりと単に予測するのでは無く運用課題の話が増えたのが印象に残っています。 リスク予測とインセンティブデザイン 上の写真はDavid Hand氏による講演「Data Science for Financial Applications」の一場面です。自動車保険の保険料が女性に比べて男性が高い事に抵抗して行政上の性別を変更した男性*3の例が紹介されています (NEW YORK POSTの記事)。 事故を起す確率が高いと予測された顧客に高い保険料を課すのは自然なアイデアです。しかし事故発生確率と因果があ
10月上旬にRecSys'18というレコメンデーション分野の国際会議に初参加してきた。出張報告がてらに聴講した内容をまとめる。twitterに記録していたので文章はそこから起こした。時差ぼけもあり、全部は聞けていないので悪しからず。 レコメンデーション分野はNetflix、Spotify、Hulu、Pandora、Criteoなどインダストリでの研究が盛ん。実データを持ってたり、実際にビジネス適用しているので研究背景に説得力がある。 Industrial Sessionもそうだったけど推薦だと企業もエッジな研究していて良い..(critriaがどこも異なるのでやりやすい )*1日本の推薦業界の人もこの辺まできて発表してほしい。 Netflixにおける取り組みなど企業の取り組みの方がアカデミアよりも進んでいるところもあった。日本からもGyao!(Yahoo!J)、U-next、Abema、リ
このエントリは全9回を予定する18卒新人ブログリレーの第3回です. はじめまして.今年度よりリクルートテクノロジーズに入社した河野 晋策です. 7月からQassチームにて検索ロジックの改善を行っています. Qassチームは,検索基盤の運用や検索ロジックの改善を行っているチームです. 詳しくは以下の記事をご覧ください. 検索組織の機械学習実行基盤 リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか Elasticsearch+Hadoopベースの大規模検索基盤大解剖 本記事の想定読者:普段Jupyter notebook・Jupyter Lab,Google Colaboratoryを使っている方,またこれから使おうと考えている方 本記事の概要:jupyter notebookの知見共有 はじめに Jupyter notebookとは 近年,データの重要性が様々な
本記事について 本記事では、Deep Learningを用いた学習の要となる学習率の決め方、また学習率更新関数の決め方ご説明します。 これから説明する方法は、米国で数多の機械学習エンジニアを輩出している学習講座 fast.ai に取り入れられている手法で、その手法はDeep Learningフレームワークに導入、または導入検討されているものです。 この学習率決定法・更新関数は導入が簡単な割に、精度が数%上昇したり既存の精度までに到達する学習時間(Epoch数)が半分以下なるため、取り入れないのはもったいないと思いから記事にしました。 この記事は fast.ai 及び 論文『Cyclical Learning Rates for Training Neural Networks』を参考しにしています。 初期学習率の決め方: LR range test LR range testとは 初期学習
最近、情報抽出、特にOpen Information Extraction(OpenIE)という分野について勉強しています。せっかく勉強しているので、学んだ内容について何回かに分けて紹介していこうと思います。第一回目の今回は、OpenIEという分野の概要について紹介し、OpenIEのきっかけとなったシステムであるTextRunnerとその仕組みについて説明します。 Open Information Extractionとは? OpenIEについて述べる前に、まずは伝統的な情報抽出について述べておきましょう。情報抽出は非構造化データであるテキストを構造化された表現に変換するタスクです*1。情報抽出で抽出される情報は関係のタプルの形(arg1, rel, arg2)で表現されます。このタプルは関係を示すフレーズ(rel)とその対象であるエンティティ(args)から成ります。一般的な処理の流れと
You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more This article is the first in a series dedicated to explaining how Uber leverages forecasting to build better products and services. In recent years, machine learning, deep learning, and probabilistic programming have shown great promise in generating accurate forecasts.
最近、仕事のちゃんとした登壇が多かったので、趣味でやっているWebサービスにおける機械学習関連の工夫について発表してきました。基本的に昔ブログで紹介したエントリのまとめバージョンです。 趣味の余暇時間で開発しているサービスなので、いかに手間をかけずに済むかというのが大事です。テーマは怠惰!! 機械学習を使った趣味サービスにおける工夫紹介 from syou6162 効率的なアノテーション方法 精度の継続的なモニタリング 多様性を持たせた簡単な推薦方法 パイプラインジャングルと戦う 効率的なアノテーション方法 機械学習、データ数が多くないとなかなか精度が出ないですが、教師データをたくさん作るのも手間がかかります。そこで能動学習を使って効率的にアノテーションしていくツールを作ったので、それの紹介をしました。 精度の継続的なモニタリング 機械学習のコードでは、テストは通ってたけど実は本番では精度
株式会社ハカルスの染田さん(Machine Learning Meetup KANSAI繋がり)からご紹介頂きまして、タイトルの内容で登壇してきました。 今日から始める機械学習〜はてなの事例〜 from syou6162 A-3セッション『今日から始める機械学習~はてなの事例~』吉田 康久さん(はてな)です! #devsumi #devsumiA pic.twitter.com/Dhej1tIkhV— Developers Summit (@devsumi) 2018年9月28日 登壇に当たって考えたこと 「機械学習を始めたいけど、まだちょっとハードルが高くて踏み出せていない」という方が「機械学習やってみよう!」と思える内容の依頼(大分意訳してるけど)をもらっていました。このテーマ、結構話し方が難しいなと思っていました。というのも、最近の登壇では「機械学習のサービス運用や組織運用、結構大変
Amazon Web Services ブログ Amazon SageMaker 自動モデルチューニングによる高精度なモデル、高速化 Amazon SageMaker では、このほど、機械学習モデルのハイパーパラメータ値を自動的に調整することで、より正確な予測を生成できる機能をリリースしました。ハイパーパラメータは、トレーニング中にアルゴリズムがどのように動作するかを示すユーザー定義の設定です。例としては、データを繰り返し処理する毎に、決定木のサイズを拡張する方法、セグメンテーションで必要なクラスタの数やニューラルネットワークの重み付けを更新する方法などがあります。 機械学習モデルに適したハイパーパラメータ値を選択することは、最終的な精度とパフォーマンスに大きな影響を与える可能性があるため重要です。しかしながら、ハイパーパラメータ値を設定するプロセスは難しい場合があります。正しいやり方はデ
こんにちは、アプリケーションエンジニアのid:syou6162です。9/28(金)に神戸国際会議場にてDevelopers Summit 2018 KANSAIが開催されました。はてなからは2名のエンジニアが登壇しましたので、発表の様子をお伝えします。 Mackerelの200週連続リリースの舞台裏とこれから id:daiksyがMackerelで先日達成した、200週連続リリースの舞台裏と、その後についてお話しました。 mackerel.io 概要 Mackerelの連続リリースは、先日200週という大きな節目を迎えました。 機能開発には、1、2日でできる小粒なものから、数ヶ月かけて開発が必要な大きな機能があります。日々の運用でミドルウェアのバージョンアップなどの目に見えない仕事も無限にあります。そういったタスクを並行で走らせながら、毎週新機能リリースを維持するには様々な工夫が必要です。
今回は、NIPS2018に投稿されたUnderstanding Batch Normalizationという論文を読んだので、紹介していきたいと思います。この論文は、なぜバッチ正規化(Batch Normalization)が学習に効果的なのかを実証的なアプローチで検証した論文です。 この記事は、ニューラルネットワークの基礎(全結合層や畳み込み層)を理解している方を対象にしています。また、可能な限りバッチ正規化を知らない方でも理解できるようにしています。この記事を読み終わるころには、「なぜバッチ正規化が学習に効果的なのか」が分かるようになっています。 ニューラルネットの基礎は以下の記事で紹介しています。 ニューラルネットワーク入門 KelpNetでCNN この記事は論文を要約したものに説明を加えたものとなっています。記事内で1人称で語られている文章については、多くが論文の主張となっています
Workflow Engines Meetup #1 - connpass 2017/03/09 Workflow Engines Meetup #1 #wfemeetup - Togetterまとめ ビッグデータ基盤周りの業務に携わっている者にとって『ワークフローエンジン』は非常に重要な位置を占める"関心事"です。OSSから商用のものまでこの分野のツールやプロダクトは数多く存在し、多かれ少なかれ皆さん苦労しながらもそれぞれの利用ノウハウを蓄積している状況の様です。そんな中、そのものズバリの勉強会が企画されていたので速攻で申し込み、この日参加してきました。 イントロ セッション内容 Digdag:Digdagの特徴とQuick Start Jenkins:Jenkins 2.0 Pipeline & Blue Ocean Luigi:Luigiを使っている話 Azkaban:Azkaban
改めて発表内容に目を通し直したのでまとめます。 KDD2017 2日目のWorkshop Dayはネット広告分野のワークショップであるAdKDD & TargetAd 2017に参加していました。AdExchange, DSP, Advertiser, Publisherと様々な立場での課題と解決策が聞けて面白かった。ペーパーと発表スライド、動画は以下のサイトから辿れます。 AdKDD & TargetAd 2017 https://adkdd17.wixsite.com/adkddtargetad2017/accepted-papers Paper: Optimal Reserve Price for Online Ads Trading Based on Inventory Identification AdExchangeの立場でRTBのReserve Priceの最適化 DSPが高
『バンディット問題の理論とアルゴリズム』本の,報酬がなんらかの特徴の線形モデルによって表現される場合に使える線形バンディットが前から気になっていたので輪読会で発表担当をするなど. スライド アルゴリズムの実装と人工データによる実験 LinUCBとThompson Sampling,報酬が正規分布のケース ロジスティック回帰モデル上のバンディット,報酬が二値のケース 感想 行動(腕)毎の報酬を推定するのでは無く,報酬モデルのパラメータを推定するという方策.妥当なモデルが作れたら実際に使えそうな感触. 実装は一発書きおろしで検算をしていないが,一応それっぽく動いた.ラプラス近似の処理が重いので勾配ベクトルとヘッセ行列の計算過程はキャッシュしておかないとつらい. LinUCBかThompson Samplingかどちらを使うかというと,報酬が同期で観測できない広告配信は後者一択で,報酬が二値の場
皆さんこんにちは。@Ssk1029Takashiです 最近、AWSのSageMakerがいくつかアップデートがありました。個人的にはPyTorchのサポートがアツいですね。 さて、今回はSageMaker上で公式がサポートされていないアルゴリズムを学習する場合に、どのような方法があるのかを紹介していきます。 モデルはMobileNet SSDを題材として見ていきましょう。 SDK?コンテナ? SageMaker上で自前のモデルを作成する方法は2つあります。 SageMaker Python SDKを使う 自作のDockerコンテナを利用する 1の方法は、各フレームワークごとにSageMaker上で学習するためのスクリプト仕様が決まっていて、その仕様に沿って書けば学習・推論ができるようになっています。 例えばTensorflowであれば以下のページに仕様が載っています。 docs.aws.a
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く