eureka-meのブックマーク - はてなブックマーク

「あえて精度勝負をしない機械学習」という選択肢 - 渋谷駅前で働くデータサイエンティストのブログ

少し前のことですが、こんな話題がありました。自分がこれまで現職で手がけた機械学習ソリューションでは 1. そもそも「予測」ではなく「説明（解釈）」をアウトプットにする 2. クラス分類確率の高いものだけアウトプットし、低いものは「未定」扱いにして捨てるなどという形で実務の現場で使ってもらってます。精度勝負をしないのも一つの解かと https://t.co/NmZJCPnue2— TJO (@TJO_datasci) 2021年8月29日実際問題として「ある目的のために機械学習システムを開発し、非常に高精度のものが出来上がったが、結局色々あって実戦投入されなかった」という話は、自分の身の回りでも業界内の伝聞でも事欠きません。しかし、機械学習と言えばどちらかというと「より精度の高いモデルを追い求める」試み、もう少し下世話に言うと「精度勝負」によって、連綿と発展してきたという歴史がありま

eureka-me 2021/09/12

リンク

機械学習の説明可能性（解釈性）という迷宮 - 渋谷駅前で働くデータサイエンティストのブログ

ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。機械学習の説明可能性（解釈性）、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデルを開発するより、納得できないお客さんを巧みに関係性構築した上で口八丁で完璧に説得できる凄腕営業ピープルを雇う方が重要— TJO (@TJO_datasci) 2019年11月23日これ自体は与太話なので実際どうでも良い*1のですが、最近色々な研究や技術開発の進展はたまた実務家による考察などを見ていて、「機械学習の説明可能性（解釈性）というのは思った以上に複雑な迷宮だ」と感じることがままあったのでした。ということで、今回の記事では僕のサーベイの範囲でザッと見て目についた資料などを超絶大雑把にリストアップした上で、主に実務における説明可能性とは何かとい

eureka-me 2019/12/27

リンク

Spotifyって機械学習をどう活用してるの？⇒元社員がQuoraで回答 | 株式会社インキュビット

Q&AサイトのQuoraに、先月こんな質問があがっていました。「Spotifyはどのようにして機械学習で成果を出してきたのでしょうか？機械学習を当初から重要視していたのか、もしくは途中からキャッチアップしたのでしょうか？」この質問に対して、2008年～2015年まで同社にて機械学習チームを率いていたErik Bernhardssonという人物が回答を寄せています。機械学習も活用した楽曲リコメンドに力を入れるSpotify。その中の人だった彼が、若干の内部事情も含めて同社による取り組み状況を明かしていました。興味深い内容だったので、少し補足しながら彼の回答を紹介していきたいと思います！ Spotifyにおける機械学習の重要性 Bernhardsson氏によるコメントを紹介する前に、Spotifyにおける機械学習の重要性について触れておきたいと思います。言わずもがなですが、Spoti

eureka-me 2019/12/05

“この「似ている」曲を判別するために、曲の音声シグナルを解析した上で、ニューラルネットワークによる学習を行っているそう。自分と共通点の多い他のユーザーのプレイリストの中から、まだ自分のプレイリストに

リンク

PythonのDaskをしっかり調べてみた（大きなデータセットを快適に扱う） - Qiita

PandasやNumPyの並列処理だったり、メモリに乗り切らないデータを扱う際などによく見かけるDaskライブラリ。ただ、細かいところまで触れている日本語の資料があまり無かったので、公式ドキュメントなどをしっかり読んでみてまとめてみました。 ※Daskのドキュメント既に読まれている方はご存知かと思いますが、ドキュメントがかなりのボリュームなのと、細かい所まで把握するのを目的とするため、本記事も長めです。仕事などの都合でさくっと使われたい方には向いておりませんので、そういった場合は別の記事をご参照ください。どんなライブラリなのか Pythonで並列処理・分散処理などを簡単に扱ってくれる。 Pythonでよく使われるライブラリとかなり近いインターフェイスを提供している（NumPy、Pandas、Scikit-Learnを中心に、他にもTensorFlow・XGBoostなども）。必要な場

eureka-me 2019/11/27

リンク

PythonのJoblibによる並列計算について - Qiita

はじめに事情があって、Random Forestに投げ込むデータセットで自然言語で書かれたDescriptionに特定の単語が入っているかいないかの、One-hotエンコーディングをした行列を作る必要があった。ある単語が入っている/いない、で行列をつくっていくわけだから個々の単語ごとには依存関係はなく並列化が可能である。並列化 Pythonでマルチコア分散実行をするやり方はいくつかあるらしい。IPythonパラレルやParallelPython、Joblib、Multiprocessingなどだ。そのなかでもJoblibがいいと聞きかじったのでJoblibで実装を行ってみた。 Joblibの導入 Joblibを導入するのは簡単だ。といってもPythonのライブラリの導入はありがたいことにだいたい簡単だ。

eureka-me 2019/11/27

joblib, df.groupby()から帰ってくるオブジェクトに対してメソッドをかますときとか便利

リンク

Python(Pandas)でデータ分析するときに使う基本操作(前処理)まとめ

１つのファイルを読み込む df = pd.read_csv('csvファイルのディレクトリ') 複数のファイルをまとめて読み込む from glop import glob csv_files_dir = glob('*.csv') # 『*』がワールドカード marge_csv = [] for f in csv_files_dir: marge_csv.append(pd.read_csv(f, encoding='文字コード')) # １つのデータフレームに結合する # ignore_index=Trueでインデックスをリセット df = pd.concat(marge_csv, ignore_index=True) 【Python】PandasでCSVファイルを読み込み/書き出しする実践テクニック集 EXCELファイル df = pd.read_excel('EXCELファイルのデ

eureka-me 2019/11/21

pandasを使った集計

リンク

リフト値とは：その事象が、どれだけ「持ち上がっているか」を考える指標｜データ分析用語を解説 - GiXo Ltd.

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフより移設されました（2019/7/1）リフト値が高い＝その物事が”起こりやすい” 以前、「バスケット分析とは｜データ分析用語を解説」という記事を書きました。この記事中にもある通り、バスケット分析は「頻繁に購入される商品の組合せ」を見つけるための分析手法です。この組合せを見つける際に重要となる指標が「リフト値」という指標です。今回は、この「リフト値」について解説していきたいと思います。リフト値とは、バスケット分析における重要な指標の一つであり、ある商品xの購買が他の商品yの購買とどの程度相関しているかを示す指標です。英単語”lift”は「持ち上げる」という意味であり、リフト値は商品xの購買が商品yの購買をどの程度”持ち上げる”か（促進させるか）を示す指標であると言えます。リフト値が大きければ大きいほど、商品

eureka-me 2019/11/19

リフト値

リンク

リフトチャート（LiftChart）を使ったモデルの評価

プラットフォームの概要 AI Platform 生成 AIおよび予測 AIのプラットフォームもっと詳しくドキュメント新機能ログイン無料で始める運用自信を持ってAIを拡張し、比類のないエンタープライズ・モニタリングとコントロールでビジネス価値を促進デプロイと実行再学習と最適化監視と介入ガバナンス AIの環境、チーム、およびワークフローを統合し、大規模な範囲での完全な可視性と監視を実現レジストリと管理監査と承認コンプライアンスドキュメント生成構築ニーズの進化に合わせて自由に適応できるオープンなAIエコシステムで、迅速なイノベーションを実現分析と変換学習とチューニング組立てと比較プラットフォーム統合インフラストラクチャーへのデプロイソリューション業界ごとヘルスケア製造小売業金融サービス成果ごとユースケースのライブラリーお客様事例 Dat

eureka-me 2019/11/19

リフト値の使い方

リンク

Updated to 2017.1.3. now getting "Cannot save files" error – IDEs Support (IntelliJ Platform) | JetBrains

eureka-me 2019/11/13

“@Netores1 if google drive sync doesn't cause access issues in other editors, try disabling Use "safe write" in Settings | Appearance & Behavior | System Settings - does it make things any better?”

リンク

https://www.mizuho-rt.co.jp/publication/giho/pdf/009_12.pdf

eureka-me 2019/10/29

モデルの説明性、逆問題の考え方

リンク

Kaggle TalkingData Fraud Detection コンペの解法まとめ(応用編) | リクルート

リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちらこんにちは。今年2018年4月より新卒でRCOに入社した松田です。さて前回の記事で kaggle の TalkingData AdTracking Fraud Detection Challenge の基本的解法を見てきましたが、この記事はその続きで上位陣たちが公開して下さった解法を勝手ながらまとめます。上位陣の解法まず以下がkaggleのサイトにある上位陣の解法リンク&それに対するちょっとしたコメントです。 1位のチーム Kaggle Meetup Tokyo #4におけるflowlightさんによる動画解説まである 2位のチーム 3位: bestfittingさん 2018年6月現在kaggleの総合ランキング1位の人による

eureka-me 2019/10/18

“上位陣の解法”

リンク

Kaggle TalkingData Fraud Detection コンペの解法まとめ(基本編) | リクルート

のようになっています。 click_time以外はカテゴリカルデータで、始めから整数で表現(Label Encoding)されたものが与えられています。これはデータとしては非常にシンプルでここからいかに情報を引き出すかがポイントとなります。アンバランスな目的変数以上を用いて予測する対象がis_attributedというアプリダウンロード有無の指標です。 is_attributedが1のデータは広告クリック後にアプリがダウンロードされたクリックイベント、0のデータはそうでないものです。約1.8億件の訓練データ全体に対してis_attributed=1のデータは50万件弱で、割合にして約0.2%と非常に少ないです。このように、目的変数の分布がアンバランスであることがこのコンペの特徴のひとつです。ちなみにアプリがダウンロードされた時刻attributed_timeも与えられていますが

eureka-me 2019/10/18

“正しい検証ができるように一般には「訓練データと検証データの関係 = 訓練+検証データとテストデータの関係」となるようにすべきです。”

リンク

機械学習モデル

プラットフォームの概要 AI Platform 生成 AIおよび予測 AIのプラットフォームもっと詳しくドキュメント新機能ログイン無料で始める運用自信を持ってAIを拡張し、比類のないエンタープライズ・モニタリングとコントロールでビジネス価値を促進デプロイと実行再学習と最適化監視と介入ガバナンス AIの環境、チーム、およびワークフローを統合し、大規模な範囲での完全な可視性と監視を実現レジストリと管理監査と承認コンプライアンスドキュメント生成構築ニーズの進化に合わせて自由に適応できるオープンなAIエコシステムで、迅速なイノベーションを実現分析と変換学習とチューニング組立てと比較プラットフォーム統合インフラストラクチャーへのデプロイソリューション業界ごとヘルスケア製造小売業金融サービス成果ごとユースケースのライブラリーお客様事例 Dat

eureka-me 2019/10/17

メタモデルの考え方：学習用ハイパーパラメータとハイパーパラメータチューニングメソッド　これが技術のコアと考える

リンク

『エンジニアよ、大志を抱け』～まずスキルを磨き、ビジネスを覚え、そしてユーザー企業で活躍しよう - Qiita

エンジニアの諸君、いま日本のIT事情はかなり厳しいことになっているのはご存じだろうか。日本は経済規模で中国に抜かれて久しく、様々な経済指標を見てももはや先進国とは言えない1状況になっているが、ITの状況を見ても、欧米諸国や、実はアジア諸国と比べても惨憺たる状況なのである。日本の惨憺たるIT事情日本では昔からITを戦略的投資と考えずに「ITはしょせん道具だ」ととらえてコストとみなし、まるまるアウトソースをしたり、社内異動で移ってきた専門家でない人間に任せていたりしていた。エンジニアの給料も他国と比べるとひどいもので、日本の平均は米国の平均の約半分2である。社内異動で移ってきた人間なので、あと2-3年すればまた別の部門に異動するため、学習意欲も低い3。社内でも、使えるパソコンは10年くらい前のスペックで、スマホで仕事をしたほうが早いのではないかと思うくらいのブツしか配布されない。そして、

eureka-me 2019/10/16

DX 産業とICTを一体化すること。このためにはITだけでなくビジネスも必要。日本には欧米に比べてIT企業にIT人材が偏在しており、事業会社に少ない。

リンク

成功した機械学習モデル150個を分析してわかったことまとめ、Booking.comの場合

by stem.T4L 宿泊予約サイトのBooking.comはプラットフォームに機械学習を取り入れており、毎日いくつものA/Bテストを実施して最適なオプションや表示方法を模索しています。機械学習を取り入れるなかで失敗と成功の両方を何度も経験してきたBooking.comが、150の成功モデルから学んだことについて論文を発表しました。「機械学習が現実の企業やプラットフォームのパフォーマンスにどう影響するのか」を述べたこの論文を、VMwareのCTOを務めたのちにAccelのベンチャーパートナーとなったAdrian Colyer氏がかみ砕いて解説しています。 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com (PDFファイル)http://delivery.acm.org/10.1145/3340

eureka-me 2019/10/16

予測は遅延をもたらし、遅延するとコンバージョン率が下がる。こういうウェブサイト系の機械学習だと反応速度とかも重要。機械学習にも不気味の谷が存在。でもそれは説明の仕方で対処できるのでは。

リンク

アクティブタイムバトルシステム - Wikipedia

アクティブタイムバトルシステム（略称・通称ATB、英字Active Time Battleの略）は、コンピュータRPGの戦闘システムである。概要[編集] ターン制の戦闘システムとは異なり、常に時間が流れているリアルタイム制のシステム。スクウェア・エニックス（旧スクウェア）の『ファイナルファンタジーIV』が初出であり、それ以降のシリーズや他作品などでも採用されている。採用作品により性質が異なる場合があるが、基本的には敵・味方共に一定の時間が溜まったキャラクターから行動を選ぶ仕組みである。ほとんどの作品で、次の行動選択可能までの時間を表したATBゲージ[1]が味方キャラクター1人1人に表示され、時間の流れを視覚的に捉えることができる。ゲーム中の設定でゲームスピードの調整ができる場合がある。また、コマンド入力時に時間が流れ続ける「アクティブ」と、時間が止まる「ウェイト」の切り替えができる場

eureka-me 2019/10/16

リアルタイムなゲームの形式というアイディアにも特許を付けられるのかー

リンク

はてなブックマーク

eureka-meのブックマーク (16)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス