samurairodeoのブックマーク - はてなブックマーク

K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ

クラスタリングに用いられるK-meansのクラスタ数決定方法については長く議論されてきた歴史があり、このブログでも以前ちょろっと取り上げたことがあります。で、Twitterを眺めていたらタイムラインに面白い論文が流れてきました。それがこちらです。タイトルを読んで字の如く「K-meansのクラスタ数を決めるのにエルボー法を使うのはやめろ」という論文なんですね。全体で7ページと非常にコンパクトで読みやすい内容なので、簡単にまとめて紹介してみようと思います。なおいつもながらですが、僕の技術的理解が不足しているが故の誤りなどが混じる可能性がありますので、その際はコメント欄などでご指摘くださると幸いです。あるtoy dataに対するK-meansの結果目検に頼らないエルボー法について考えるならば、既存のクラスタ数決定法の中では何を選ぶべきかそもそもK-meansが有効でないケースもあるこ

samurairodeo 2023/01/31

あとで読む

リンク

『標準ベイズ統計学』はベイズ統計学をきちんと基礎から日本語で学びたいという人にとって必携の一冊 - 渋谷駅前で働くデータサイエンティストのブログ

標準ベイズ統計学朝倉書店Amazon 発刊当時に話題になっていた『標準ベイズ統計学』。実は訳者のお一人、菅澤翔之助さんからオフィス宛てでご恵贈いただいていたのですが、親父の没後処理やら自分のDVTやら実家の片付けやらで全く手が回らずオフィスに置いたままにしてしまっていたのでした。で、この度改めて拝読してみたら「何故もっと早く読まなかったんだ」と後悔するくらいあまりにも内容が素晴らしかったので、遅まきながら書評記事を書こうと思い立った次第です。ベイズ統計学というと、殆ど詳しくない人だと「ベイズの定理以外に何があるの？」という印象ぐらいしかないかもしれませんし、一方でとりあえず技法としてやり方だけ覚えてしまった人だと「とりあえずMCMC回せばいいんだよね？」みたいな雑な理解になってしまうかもしれません。いずれにせよこれまで邦書ではベイズ統計学というと超初歩か実装重視かの二択が多かったせい

samurairodeo 2022/11/28

あとで読む

リンク

不均衡データをundersampling + baggingで補正すると汎化性能も確保できて良さそう - 渋谷駅前で働くデータサイエンティストのブログ

弊社のランチゲストにお招きしたことのある[twitter:@tmaehara]さんが、こんなことをツイートしておられました。 imbalanced data に対する対処を勉強していたのだけど，[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm … で「undersampling + bagging をせよ」という結論が出ていた．— ™ 🔰 (@tmaehara) 2017年7月29日不均衡(imbalanced)データのクラス分類における補正方法については、代表的な手法であるclass weight（損失関数に対して負例のコストを負例と正例の割合に応じて割り引くもの）のやり方を以前このブログでも取り上げたことがあります。ということで、ほんの触り程度ですがやってみようと思います。ちなみに計算負荷とか自分の手間とか色々考えて、基本的にはra

samurairodeo 2022/07/18

あとで読む

リンク

NN時代のモダンな不均衡データ補正：undersamplingしたデータから得られたモデルを全データでfine-tuningする（論文紹介・ただし再現に失敗） - 渋谷駅前で働くデータサイエンティストのブログ

何だか不均衡データ補正の話題は毎回tmaeharaさんからネタを頂戴している気がしますが（笑）、今回も興味深いネタを拝見したので試してみようと思います。深層学習時代の class imbalance 対応が面白い。適当にバランシングしたデータセットで十分学習した後にフルデータセットでファインチューンするのがいいらしい。なんだこれ。— ™ (@tmaehara) 2022年5月11日端的にまとめると「under/upsamplingで均衡させた改変データセットで学習したNNを、改めて全データセットでfine-tuningすれば不均衡データ補正が上手くいく」という論文があるらしく、しかも割とうまくいくので採用している後発論文が少なからずあるようだ、というお話です。 tmaeharaさんが引用されていたのはこちらの論文なんですが、IEEE公式サイトのものは僕は読めないので適当にarXivで探

samurairodeo 2022/06/10

あとで読む

リンク

RでK-meansの最適なクラスタ数をAIC / BICに基づいて求める - 渋谷駅前で働くデータサイエンティストのブログ

これはただの備忘録です。既知の話題ばかりが並べられているので、特に新鮮味のない内容である点予めご容赦ください。クラスタリング手法として広く知られるK-meansは、その簡便さから非常に広汎に使われていますが、一方で「クラスタ数を恣意的に決め打ちせざるを得ない」という難点があり、「最適なクラスタ数をどうやって決めるか」という課題が長年に渡ってあります。この課題の解決策についてちょっと調べてみたので、以下にまとめてみました。 K-meansにおける「最適なクラスタ数の決め方」として、こちらの記事では伝統的な手法ということでエルボー法シルエット分析 X-means（K-meansに情報量規準を適用して再帰的に最適クラスタ数を決める）の3種類が紹介されています。これらは僕も以前から聞いたことがあるもので、実際K-meansの実装の中には最初からエルボー法などを含んでいるものもあったりします

samurairodeo 2021/04/22

あとで読む

リンク

Rで機械学習モデルの解釈手法たちを試してみる - 渋谷駅前で働くデータサイエンティストのブログ

この記事の前段として、まず事前に昨年書いた機械学習モデルの解釈性についての記事をご覧ください。僕が知る限り、機械学習実践のデファクトスタンダードたるPython側ではLIMEやSHAPといった解釈手法については既に良く知られたOSS実装が出回っており、相応に実際に使ってみたというレポートも見かける状況です。一方、R側ではそこまでメインに機械学習を回す人が多くないせいか、あまりこれまで実践例を見かけないなぁと思っていました。そんなことを考えながら先日ふと思い立ってググってみたら、意外にも幾つかの解釈手法については既にOSS実装があり、中にはCRANに上がっているものもあるのだと今更ながら知ったのでした。ということで、二番煎じなのか何番煎じなのか分かりませんが、これらのRによる機械学習モデルの解釈法実装を今更ながら僕も試してみることにします。検証に使うデータセットは統一してUCI ML

samurairodeo 2020/09/09

あとで読む

リンク

ディープラーニング(Deep Learning)の歴史を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

先日Quora日本語版でこんな回答を書いたのですが、ついでなので少し文脈情報を付け足してブログの方に再録することにしました。理由は単純で、このブログでディープラーニングの歴史についてまとめた記事を今まで書いてきたことがなく、そしてブログ記事にした方がより認識違いや調査不足などについての指摘をもらいやすいと思われたからです。ということで、以下の説明に関してツッコミがあれば是非コメント欄などにお寄せくださいm(_ _)m (A Neural Network Playground) ディープラーニングを語る上で、その前史であるパーセプトロン、そして（人工）ニューラルネットワークの話題は欠かせません。以下大まかに説明していきましょう。（※歴史解説中では敬称略、各種用語は原則カナ表記*1）パーセプトロンの登場ミンスキーによる批判と第1の冬の時代誤差逆伝播学習則と中間層を用いたニューラルネットワ

samurairodeo 2020/08/26

あとで読む

リンク

機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) 最近になって、こんな素晴らしい資料が公開されていたことを知りました。この資料自体は著者のMoe Uchiikeさんが東大での講義に用いられたものだとのことですが、その内容の汎用性の高さから「これは全ての機械学習や統計学を実務で用いる人々が必ず読むべきドキュメント」と言っても過言ではないと思われます。正直言ってこの資料の完成度が高過ぎるのでこんなところで僕がああだこうだ論じるまでもないと思うので、内容の詳細については皆さんご自身でまずは上記リンクから精読していただければと思います。その上で、今回の記事では「機械学習や統計学を『社会実装』する」ということがどういうことなのかについて、この資料を下敷きとした上でさらに僕自身の経験や見聞を加えて考察したことを綴ってみます。機械学習や統計学と、社会との「ギャップ」機械学習や統計学を、社会に「馴染ませる」

samurairodeo 2020/07/16

あとで読む

リンク

2020年版：実務の現場で求められるデータサイエンティスト・機械学習エンジニアのスキル要件 - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) この記事は、昨年の同様のスキル要件記事のアップデートです。正直言って昨年バージョンとの差分は殆どないのですが、一応この1年間の業界の進歩を踏まえて僅かながらアップデートしてありますので、ベースとなっているスキル要件についてさらっと概観した上で、差分となるアップデート部分について簡単にコメントしておこうかと思います。なお、いつもながらの断り書きですが。言うまでもなく、この記事の内容はあくまでも僕の個人的な意見にして、なおかつ僕自身がこれまでの経験と見聞に基づいて「これまで自分が属してきた組織やチームにおけるデータサイエンティストや機械学習エンジニアはこうだったor今後はこうあって欲しい」という最大公約数的な経験談や願望を書き並べたものに過ぎません。よって何かの組織や団体の意見を代表するものではありませんし、況してやauthorizeされた意見として見

samurairodeo 2020/03/11

あとで読む

リンク

ML design: 機械学習を確かならしめる「メタ」な枠組み - 渋谷駅前で働くデータサイエンティストのブログ

(By Gufosowa - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=82298768) ここ最近、事あるごとに僕が色々な人たちに提案している概念として"ML design"というものがあります。これは元々"ML Ops"（DevOpsと同じように機械学習のシステム基盤などを包含する考え方）に対して「機械学習モデリングを運用する上で注意すべき点って多いよね」ということで、その注意点をまとめたものを一つの体系として扱えないかという趣旨で僕が勝手に言い出したものです。言い方を変えると、統計分析に適したデータを集めるための実験計画法(experimental design)があるのと同じように、機械学習に適したデータの集め方やその交差検証などのやり方についてもまとめた計画法(design)が

samurairodeo 2020/02/25

リンク

実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊＆中級8冊＋テーマ別11冊（2020年2月版） - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) この記事は以下のオススメ書籍リスト記事のアップデートです。毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいという、主に初級ないし中級ぐらいのスキルレベルの人たちにお薦めしたい書籍を、初級向け5冊・中級向け8冊及び細かいテーマ別に11冊、それぞれ挙げていきます。スタンスとしては相変わらず「当座の最終到達点を『中級』に置いた時に最初に読んで内容をマスターしておくべき書籍」を初級に置いているので、世の中のこの手のお薦め書籍リストに比べると若干ハードな内容のものが初級向けに多いかもしれません。後はちょっと気が早いかもしれませんが、機械学習パートに関しては「AutoML時代にあっても実務の専門家であれば知っておくべき知識」を収めた書籍を選んでおきま

samurairodeo 2020/02/04

あとで読む

リンク

機械学習の説明可能性（解釈性）という迷宮 - 渋谷駅前で働くデータサイエンティストのブログ

ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。機械学習の説明可能性（解釈性）、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデルを開発するより、納得できないお客さんを巧みに関係性構築した上で口八丁で完璧に説得できる凄腕営業ピープルを雇う方が重要— TJO (@TJO_datasci) 2019年11月23日これ自体は与太話なので実際どうでも良い*1のですが、最近色々な研究や技術開発の進展はたまた実務家による考察などを見ていて、「機械学習の説明可能性（解釈性）というのは思った以上に複雑な迷宮だ」と感じることがままあったのでした。ということで、今回の記事では僕のサーベイの範囲でザッと見て目についた資料などを超絶大雑把にリストアップした上で、主に実務における説明可能性とは何かとい

samurairodeo 2019/12/20

あとで読む

リンク

全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) 「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日本国内の産業各分野・企業各社に広まりつつあるように僕の目には映ります。そういう背景がある中で、ここ1年ぐらいの間にそこかしこで目立つようになってきたのが「ゼロからデータサイエンティストを育てたいのだがどうしたら良いか」という相談や議論。割とあるあるなのが「取引先がデータサイエンティストを採用して商談の席に同席させるようになって、彼らがデータサイエンスの知識を駆使してビシバシ突っ込んでくるのだが、こちらにデータサイエンティストがいないので対応できない」みたいなお話。これは実はUSでも同様だと聞くので*1、案外洋の東西を問わない課題なのかもしれま

samurairodeo 2019/11/18

あとで読む

リンク

移り変わる「データサイエンティストの『常識』」について考える - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) 先日、こんな話題を見かけました。【夏なので怖い話】こないだ、いかにもエリートな男性と知り合ったんですよ彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですかそれでふとAICの話題を持ちかけたんです「あー現実であまり使わない数学の話はわかりません」 …おわかりいただけただろうか？— ゆうな (@kawauSOgood) 2019年8月14日で、悪ノリした僕はこんなアンケートをやってみたのでした。データサイエンティストという肩書きで年収1000万円以上の高給取りが、知らなかったとしても許される項目はどれですか— TJO (@TJO_datasci) 2019年8月15日このアンケート結果こそが、今回の記事を書こうと思ったきっかけです。ある程度知識のある方ならお分かりかと思いますが、ここで挙げた「AIC」「正則

samurairodeo 2019/08/27

あとで読む

リンク

『RとStanではじめるベイズ統計モデリングによるデータ分析入門』は「みどりぼん」に取って替わる次世代の統計モデリング＋ベイジアン入門書 - 渋谷駅前で働くデータサイエンティストのブログ

ここ2ヶ月ぐらいに渡って多くの方々からご著書をご恵贈たまわっているのですが、そのうちの一冊がこちら。かつて計量時系列分析を学んでいた頃に僕も大変お世話になった、Logics of Blueブログの馬場さんの手による『RとStanではじめるベイズ統計モデリングによるデータ分析入門』です。実践Data Scienceシリーズ RとStanではじめるベイズ統計モデリングによるデータ分析入門作者:馬場真哉出版社/メーカー: 講談社発売日: 2019/07/10メディア: 単行本以前はベイズ統計モデリングの入門書というと「みどりぼん」こと『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』一択でしたが、皆さんもご存知のように既にメンテされていないWinBUGSを使っているなどout-of-dateな要素が多く、近年はこれに替わる良書

samurairodeo 2019/08/15

あとで読む

リンク

「データ分析をやるならRとPythonのどちらを使うべき？」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ

(Background image by Pixabay) 最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然ながら趣味嗜好がありますので、個々人が好みだと思う方を使えば良い話ではあります。とは言え、僕自身もクソコードの羅列ながらこのブログにR & Pythonのコードを載せているということもあるので、便乗して今回の記事では僕個人の意見と感想も書いてみようと思います。いつもながらど素人の意見（特にPythonは本業ではない）なのと、自分がメインに使っているRでもtidyverseをほとんど使わないなど割とout-of-dateな使い方をしているということもあり、読んでいておかしなところなどあればどしどしご指摘くださると有難

samurairodeo 2019/06/28

あとで読む

リンク

AutoML Tablesと他の機械学習モデルとのパフォーマンス比較をしてみた（追記あり） - 渋谷駅前で働くデータサイエンティストのブログ

以前よりGoogleではCloud AutoMLという"Learning to learn"フレームワークによる「人手完全不要の全自動機械学習モデリング＆API作成」サービスを展開してきていましたが、それらは画像認識や商品推薦はたまた自然言語処理がメインで、最もオーソドックスな構造化データに対する多変量モデリングは提供されていませんでした。が、今年のCloud Nextにおいてついに多変量モデリング版であるAutoML Tablesのベータ版が公開されたということで、既に色々な方が「試してみた」系の記事を書かれているようです。 https://medium.com/@matsuda.minori/google-cloud-next-sf-19%E3%81%A7%E7%99%BA%E8%A1%A8%E3%81%95%E3%82%8C%E3%81%9Fauto-ml-tables%E3%82

samurairodeo 2019/05/28

あとで読む

リンク

機械学習のビジネス上の価値を「効果測定」して「数値評価」する方法 - 六本木で働くデータサイエンティストのブログ - 渋谷駅前で働くデータサイエンティストのブログ

(Image by Pixabay) 気が付けば、日本における第一次データサイエンティストブームから6年、人工知能ブーム開始から3年が経ったようです。意外と言っては何ですが、これまでのところ人工知能ブームも、そしてそれにブーストされた形で起こった第二次データサイエンティストブームも、まだまだ続くどころかどんどん加速していきそうな状況です。なのですが、これだけ統計学や機械学習のような高度なデータ分析技術がビジネスの現場に浸透するようになった現在でも、なぜかあまり多く見かけないものがあります。それは「機械学習（もしくは自動化された統計分析）によるビジネス上の成果を数値として示したもの」。意外かもしれませんが、個人的な観測範囲では例えば「Deep Learningを導入したら〇〇がXX%向上した」みたいなリリースや記事を見かけることは、正直なところ思った以上に少ないように思われます。それでも第

samurairodeo 2019/04/15

あとで読む

リンク

社内政治が上手くなりたいAIエンジニアのための本を書きました - 渋谷駅前で働くデータサイエンティストのブログ

個人的には2年ぐらいで萎むだろうと思っていた日本の人工知能(AI)ブームも4年目に入りそうで、「AI エンジニア」の採用数もうなぎ上りならその待遇もどんどん高騰する一方です。その反面、ブームに乗って企業に採用されたは良いものの、まだまだ保守的な文化の企業組織にうまく適応できず悩んでいるAI エンジニアも多いようにかなり以前から聞きます。そこで、そういう悩めるAI エンジニアが日本の企業組織の中で生き抜いていけるような「社内政治術」についての本があったら良いなということで、実際に書きました。題して『AI エンジニアのための社内政治術』です。発売日は調整中ですが、そろそろ各種書籍販売サービスで予約可能になるかと思います。以下に本書の目次を載せておきます。目次第1章なぜAI エンジニアの提案は通らないのか第2章まずは会社にとけ込もう第3章社内政治に強い「相棒」を探せ第4章 AIを「布教」

samurairodeo 2019/04/01

あとで読む

リンク

Googleに入社した時のこと - 渋谷駅前で働くデータサイエンティストのブログ

東京オフィスのsoftware engineer (SWE)部門のsite leadのRyoichiさんがTwitter上でこんなことを呼びかけたところ*1、GoogleのSWE採用に関して多くの同僚から色々な記事やコメントが集まったようです。 (Good question!) 期待していたのは、面接でこの問題が出て、こう答えて受かった、という話ではなくて、どういう勉強/準備をしたのか、という話です。面接の時点で英語はどれ位話せたかとか、データ構造やアルゴリズムの勉強は特別に準備したかとか、コーティングはどれ位のレベルだったか、とかです。 https://t.co/hs36GRTSU5— Ryoichi Imaizumi | 今泉竜一 (@r_ima) 2019年3月25日僕はSWEではなく下記のような経緯があってglobal business organization（GBO: つまり

samurairodeo 2019/03/27

あとで読む

リンク

はてなブックマーク

タグ

ブックマーク / tjo.hatenablog.com (30)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス