[B! ml] [8ページ] takuya-aのブックマーク

大規模データの機械学習におけるDaskの活用 - Speaker Deck

@PyData.Tokyo One Day Conference 2018/10/20

takuya-a 2018/10/28

python
ml

リンク

システムログ書式の構造に着目したシステム異常検出手法の検討 /css2018-mizutani - Speaker Deck

汎用ポリシー言語Rego + OPAと認可・検証事例の紹介 / Introduction Rego & OPA for authorization and validation

takuya-a 2018/10/25

log
ml

リンク

何故予測が当たるだけではマズいのか、因果と機械学習

KDD2018の感想です。AdKDDやネット広告方面は職場のBlogに書くので、こちらは他の話を。今年は因果推論のチュートリアルが超満員だったり、予測モデルの差別、解釈性と説明性「interpretable and explainable machine learning models」が注目されたりと単に予測するのでは無く運用課題の話が増えたのが印象に残っています。リスク予測とインセンティブデザイン上の写真はDavid Hand氏による講演「Data Science for Financial Applications」の一場面です。自動車保険の保険料が女性に比べて男性が高い事に抵抗して行政上の性別を変更した男性*3の例が紹介されています (NEW YORK POSTの記事)。事故を起す確率が高いと予測された顧客に高い保険料を課すのは自然なアイデアです。しかし事故発生確率と因果があ

takuya-a 2018/10/22

ml

リンク

流行りの分散表現を用いた文書分類について Netadashi Meetup 7

2018/10/19に横浜みなとみらいで開催されるNetadashi Meetup #7の発表資料です。分散表現を用いた文書分類について企業での活用事例を取りあげたり、サンプルデータでの事例を紹介しています。Read less

takuya-a 2018/10/21

nlp
ml

リンク

Highlights from RecSys 2018 — James McInerney

takuya-a 2018/10/19

ml
recommend

リンク

RecSys'18@Vancouver trip report - myui's memo

10月上旬にRecSys'18というレコメンデーション分野の国際会議に初参加してきた。出張報告がてらに聴講した内容をまとめる。twitterに記録していたので文章はそこから起こした。時差ぼけもあり、全部は聞けていないので悪しからず。レコメンデーション分野はNetflix、Spotify、Hulu、Pandora、Criteoなどインダストリでの研究が盛ん。実データを持ってたり、実際にビジネス適用しているので研究背景に説得力がある。 Industrial Sessionもそうだったけど推薦だと企業もエッジな研究していて良い..（critriaがどこも異なるのでやりやすい）*1日本の推薦業界の人もこの辺まできて発表してほしい。 Netflixにおける取り組みなど企業の取り組みの方がアカデミアよりも進んでいるところもあった。日本からもGyao!(Yahoo!J)、U-next、Abema、リ

takuya-a 2018/10/19

ml
algorithm

リンク

あなたの生産性を向上させるJupyter notebook Tips | リクルートテクノロジーズ　メンバーズブログ

このエントリは全9回を予定する18卒新人ブログリレーの第3回です．はじめまして．今年度よりリクルートテクノロジーズに入社した河野晋策です． 7月からQassチームにて検索ロジックの改善を行っています． Qassチームは，検索基盤の運用や検索ロジックの改善を行っているチームです．詳しくは以下の記事をご覧ください．検索組織の機械学習実行基盤リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか Elasticsearch＋Hadoopベースの大規模検索基盤大解剖本記事の想定読者：普段Jupyter notebook・Jupyter Lab，Google Colaboratoryを使っている方，またこれから使おうと考えている方本記事の概要：jupyter notebookの知見共有はじめに Jupyter notebookとは近年，データの重要性が様々な

takuya-a 2018/10/17

リンク

学習率の決め方 -LR range testとCyclical Learning Rate-

本記事について本記事では、Deep Learningを用いた学習の要となる学習率の決め方、また学習率更新関数の決め方ご説明します。これから説明する方法は、米国で数多の機械学習エンジニアを輩出している学習講座 fast.ai に取り入れられている手法で、その手法はDeep Learningフレームワークに導入、または導入検討されているものです。この学習率決定法・更新関数は導入が簡単な割に、精度が数％上昇したり既存の精度までに到達する学習時間(Epoch数)が半分以下なるため、取り入れないのはもったいないと思いから記事にしました。この記事は fast.ai 及び論文『Cyclical Learning Rates for Training Neural Networks』を参考しにしています。初期学習率の決め方: LR range test LR range testとは初期学習

takuya-a 2018/10/16

リンク

テキストの構造化を支える技術 -概要編- - Ahogrammer

最近、情報抽出、特にOpen Information Extraction（OpenIE）という分野について勉強しています。せっかく勉強しているので、学んだ内容について何回かに分けて紹介していこうと思います。第一回目の今回は、OpenIEという分野の概要について紹介し、OpenIEのきっかけとなったシステムであるTextRunnerとその仕組みについて説明します。 Open Information Extractionとは？ OpenIEについて述べる前に、まずは伝統的な情報抽出について述べておきましょう。情報抽出は非構造化データであるテキストを構造化された表現に変換するタスクです*1。情報抽出で抽出される情報は関係のタプルの形(arg1, rel, arg2)で表現されます。このタプルは関係を示すフレーズ（rel）とその対象であるエンティティ（args）から成ります。一般的な処理の流れと

takuya-a 2018/10/12

nlp
ml

リンク

Forecasting at Uber: An Introduction

You’re seeing information for Japan . To see local features and services for another location, select a different city. Show more This article is the first in a series dedicated to explaining how Uber leverages forecasting to build better products and services. In recent years, machine learning, deep learning, and probabilistic programming have shown great promise in generating accurate forecasts.

takuya-a 2018/10/08

リンク

MACHINE LEARNING Meetup KANSAI #3で機械学習を使った趣味サービスにおける工夫を紹介しました - yasuhisa's blog

最近、仕事のちゃんとした登壇が多かったので、趣味でやっているWebサービスにおける機械学習関連の工夫について発表してきました。基本的に昔ブログで紹介したエントリのまとめバージョンです。趣味の余暇時間で開発しているサービスなので、いかに手間をかけずに済むかというのが大事です。テーマは怠惰!! 機械学習を使った趣味サービスにおける工夫紹介 from syou6162 効率的なアノテーション方法精度の継続的なモニタリング多様性を持たせた簡単な推薦方法パイプラインジャングルと戦う効率的なアノテーション方法機械学習、データ数が多くないとなかなか精度が出ないですが、教師データをたくさん作るのも手間がかかります。そこで能動学習を使って効率的にアノテーションしていくツールを作ったので、それの紹介をしました。精度の継続的なモニタリング機械学習のコードでは、テストは通ってたけど実は本番では精度

takuya-a 2018/10/05

ml
hatena

リンク

「今日から始める機械学習〜はてなの事例〜」というタイトルでデブサミ2018関西で登壇しました - yasuhisa's blog

株式会社ハカルスの染田さん(Machine Learning Meetup KANSAI繋がり)からご紹介頂きまして、タイトルの内容で登壇してきました。今日から始める機械学習〜はてなの事例〜 from syou6162 A-3セッション『今日から始める機械学習～はてなの事例～』吉田康久さん（はてな）です！ #devsumi #devsumiA pic.twitter.com/Dhej1tIkhV— Developers Summit (@devsumi) 2018年9月28日登壇に当たって考えたこと「機械学習を始めたいけど、まだちょっとハードルが高くて踏み出せていない」という方が「機械学習やってみよう!」と思える内容の依頼(大分意訳してるけど)をもらっていました。このテーマ、結構話し方が難しいなと思っていました。というのも、最近の登壇では「機械学習のサービス運用や組織運用、結構大変

takuya-a 2018/10/03

ml
hatena

リンク

Amazon SageMaker 自動モデルチューニングによる高精度なモデル、高速化 | Amazon Web Services

Amazon Web Services ブログ Amazon SageMaker 自動モデルチューニングによる高精度なモデル、高速化 Amazon SageMaker では、このほど、機械学習モデルのハイパーパラメータ値を自動的に調整することで、より正確な予測を生成できる機能をリリースしました。ハイパーパラメータは、トレーニング中にアルゴリズムがどのように動作するかを示すユーザー定義の設定です。例としては、データを繰り返し処理する毎に、決定木のサイズを拡張する方法、セグメンテーションで必要なクラスタの数やニューラルネットワークの重み付けを更新する方法などがあります。機械学習モデルに適したハイパーパラメータ値を選択することは、最終的な精度とパフォーマンスに大きな影響を与える可能性があるため重要です。しかしながら、ハイパーパラメータ値を設定するプロセスは難しい場合があります。正しいやり方はデ

takuya-a 2018/09/29

aws
ml

リンク

はてなから「デブサミ2018関西」に2名のエンジニアが登壇しました - Hatena Developer Blog

こんにちは、アプリケーションエンジニアのid:syou6162です。9/28(金)に神戸国際会議場にてDevelopers Summit 2018 KANSAIが開催されました。はてなからは2名のエンジニアが登壇しましたので、発表の様子をお伝えします。 Mackerelの200週連続リリースの舞台裏とこれから id:daiksyがMackerelで先日達成した、200週連続リリースの舞台裏と、その後についてお話しました。 mackerel.io 概要 Mackerelの連続リリースは、先日200週という大きな節目を迎えました。機能開発には、1、2日でできる小粒なものから、数ヶ月かけて開発が必要な大きな機能があります。日々の運用でミドルウェアのバージョンアップなどの目に見えない仕事も無限にあります。そういったタスクを並行で走らせながら、毎週新機能リリースを維持するには様々な工夫が必要です。

takuya-a 2018/09/29

ml
hatena

リンク

論文紹介 Understanding Batch Normalization - じんべえざめのノート

今回は、NIPS2018に投稿されたUnderstanding Batch Normalizationという論文を読んだので、紹介していきたいと思います。この論文は、なぜバッチ正規化（Batch Normalization）が学習に効果的なのかを実証的なアプローチで検証した論文です。この記事は、ニューラルネットワークの基礎（全結合層や畳み込み層）を理解している方を対象にしています。また、可能な限りバッチ正規化を知らない方でも理解できるようにしています。この記事を読み終わるころには、「なぜバッチ正規化が学習に効果的なのか」が分かるようになっています。ニューラルネットの基礎は以下の記事で紹介しています。ニューラルネットワーク入門 KelpNetでCNN この記事は論文を要約したものに説明を加えたものとなっています。記事内で１人称で語られている文章については、多くが論文の主張となっています

takuya-a 2018/09/25

リンク

DAG writing best practices in Apache Airflow | Astronomer Documentation

takuya-a 2018/09/19

リンク

Workflow Engines Meetup #1 に参加してきた #wfemeetup - 試纏

Workflow Engines Meetup #1 - connpass 2017/03/09 Workflow Engines Meetup #1 #wfemeetup - Togetterまとめビッグデータ基盤周りの業務に携わっている者にとって『ワークフローエンジン』は非常に重要な位置を占める"関心事"です。OSSから商用のものまでこの分野のツールやプロダクトは数多く存在し、多かれ少なかれ皆さん苦労しながらもそれぞれの利用ノウハウを蓄積している状況の様です。そんな中、そのものズバリの勉強会が企画されていたので速攻で申し込み、この日参加してきました。イントロセッション内容 Digdag：Digdagの特徴とQuick Start Jenkins：Jenkins 2.0 Pipeline & Blue Ocean Luigi：Luigiを使っている話 Azkaban：Azkaban

takuya-a 2018/09/19

リンク

hagino3000's blog: AdKDD & TargetAd 2017 まとめと感想

改めて発表内容に目を通し直したのでまとめます。 KDD2017 2日目のWorkshop Dayはネット広告分野のワークショップであるAdKDD & TargetAd 2017に参加していました。AdExchange, DSP, Advertiser, Publisherと様々な立場での課題と解決策が聞けて面白かった。ペーパーと発表スライド、動画は以下のサイトから辿れます。 AdKDD & TargetAd 2017 https://adkdd17.wixsite.com/adkddtargetad2017/accepted-papers Paper: Optimal Reserve Price for Online Ads Trading Based on Inventory Identification AdExchangeの立場でRTBのReserve Priceの最適化 DSPが高

takuya-a 2018/09/19

ad
ml

リンク

報酬が線形モデルで表せる時のバンディット問題

『バンディット問題の理論とアルゴリズム』本の，報酬がなんらかの特徴の線形モデルによって表現される場合に使える線形バンディットが前から気になっていたので輪読会で発表担当をするなど．スライドアルゴリズムの実装と人工データによる実験 LinUCBとThompson Sampling，報酬が正規分布のケースロジスティック回帰モデル上のバンディット，報酬が二値のケース感想行動(腕)毎の報酬を推定するのでは無く，報酬モデルのパラメータを推定するという方策．妥当なモデルが作れたら実際に使えそうな感触．実装は一発書きおろしで検算をしていないが，一応それっぽく動いた．ラプラス近似の処理が重いので勾配ベクトルとヘッセ行列の計算過程はキャッシュしておかないとつらい． LinUCBかThompson Samplingかどちらを使うかというと，報酬が同期で観測できない広告配信は後者一択で，報酬が二値の場

takuya-a 2018/09/19

bandit
ml

リンク

AWS SageMaker上でMobileNet SSDのモデルを学習する - Taste of Tech Topics

皆さんこんにちは。@Ssk1029Takashiです最近、AWSのSageMakerがいくつかアップデートがありました。個人的にはPyTorchのサポートがアツいですね。さて、今回はSageMaker上で公式がサポートされていないアルゴリズムを学習する場合に、どのような方法があるのかを紹介していきます。モデルはMobileNet SSDを題材として見ていきましょう。 SDK？コンテナ？ SageMaker上で自前のモデルを作成する方法は２つあります。 SageMaker Python SDKを使う自作のDockerコンテナを利用する 1の方法は、各フレームワークごとにSageMaker上で学習するためのスクリプト仕様が決まっていて、その仕様に沿って書けば学習・推論ができるようになっています。例えばTensorflowであれば以下のページに仕様が載っています。 docs.aws.a

takuya-a 2018/09/14

リンク

はてなブックマーク

タグ

関連タグで絞り込む (61)

mlに関するtakuya-aのブックマーク (354)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス