並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 28 件 / 28件

新着順 人気順

prmlの検索結果1 - 28 件 / 28件

  • はじめに — 機械学習帳

    import torch x = torch.tensor([1., -1.]) w = torch.tensor([1.0, 0.5], requires_grad=True) loss = -torch.dot(x, w).sigmoid().log() loss.backward() print(loss.item()) print(w.grad)

      はじめに — 機械学習帳
    • Hiroshi Takahashi

      Skip to the content. 機械学習の研究者を目指す人へ 機械学習の研究を行うためには、プログラミングや数学などの前提知識から、サーベイの方法や資料・論文の作成方法まで、幅広い知識が必要になります。本レポジトリは、学生や新社会人を対象に、機械学習の研究を行うにあたって必要になる知識や、それらを学ぶための書籍やWebサイトをまとめたものです。 目次 プログラミングの準備 Pythonを勉強しよう 分かりやすいコードを書けるようになろう 数学の準備 最適化数学を学ぼう 基本的なアルゴリズムとその実践 機械学習の全体像を学ぼう 基本的なアルゴリズムを学ぼう 深層学習の基礎を学ぼう scikit-learnやPyTorchのチュートリアルをやってみよう サーベイの方法 国際会議論文を読もう Google Scholarを活用しよう arXivをチェックしよう スライドの作り方 論文の

      • 大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ

        先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもおおよそ情報学博士ほどの知識は身につくものと思われます。ただし、特に大学院で重要となる論文を読み書きすることについては本稿には含めておりません。それらについては論文読みの日課についてや論文の書き方などを参考にしてください。 joisino.hatenablog.com 凡例:(半端)とは、数章だけ読んだ場合か、最後まで読んだものの理解が浅く、今となっては薄ぼんやりとしか覚えていないことを指します。☆は特におすすめなことを表します。 学部一年 寺田 文行『線形代数 増訂版』 黒田 成俊『微分積分』 河野 敬雄『確率概論』 東京大学教養学部統計学教室『統計学

          大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ
        • 統計・機械学習の理論を学ぶ手順 - Qiita

          社内向けに公開している記事「統計・機械学習の理論を学ぶ手順」の一部を公開します。中学数学がわからない状態からスタートして理論に触れるにはどう進めばいいのかを簡潔に書きました。僕が一緒に仕事をしやすい人を作るためのものなので、異論は多くあると思いますがあくまでも一例ですし、社員に強制するものではありません。あと項目の順番は説明のため便宜上こうなっているだけで、必ずしも上から下へ進めというわけでもありません。 (追記)これもあるといいのではないかというお声のあった書籍をいくつか追加しました。 数学 残念ながら、統計モデルを正しく用いようと思うと数学を避けることはできません。ニューラルネットワークのような表現力が高くて色々と勝手にやってくれるような統計モデルでも、何も知らずに使うのは危険です。必ず数学は学んでおきましょう。理想を言えば微分トポロジーや関数解析のような高度な理論を知っておくのがベス

            統計・機械学習の理論を学ぶ手順 - Qiita
          • 機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita

            はじめに 私はこれまで機械学習のパラメータチューニングに関し、様々な書籍やサイトで学習を進めてきました。 しかしどれもテクニックの解説が主体のものが多く、 「なぜチューニングが必要なのか?」 という目的に関する記載が非常に少なかったため、体系的な理解に苦労しました。 この経験を後世に役立てられるよう、「初心者でも体系的に理解できる丁寧さ!」をモットーに記事にまとめたいと思います。 具体的には、 1. パラメータチューニングの目的 2. チューニングの手順とアルゴリズム一覧 3. Pythonでの実装手順 (SVMでの分類を例に) の手順で解説を進めます。 独自解釈も含まれるため、間違っている点等ございましたら指摘頂けると有難いです。 なお、文中のコードはこちらのGitHubにもアップロードしております。 2021/9/6追記:LightGBMのチューニング実行例追加 以下の記事に、Ligh

              機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita
            • タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita

              この時期だからこそ自学しよう 海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。 これ系のまとめ記事は他にもありますが、 翻訳済の日本の本と、原著を並べて表示していきたいと思います。 特にデータサイエンス分野に限って紹介。 お高いあの名著も実は原著なら無料かも? (2020年5月時点) 続編、データサイエンスの名大学講座 を書きました (2020年8月) 1冊目 邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ本」です。 日本では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。 内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。 まさに「アルゴリズム・理論の辞書」。 年代的に古い感じはしますが、基礎はいつだって大切です。 数字に強くないと絶対読み切れない。。。 原著 : The Elements of S

                タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita
              • 何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか - 渋谷駅前で働くデータサイエンティストのブログ

                先日、Quora日本語版でこんなやり取りがありました。 基本的にはここで述べた通りの話なのですが、折角なのでブログの方でも記事としてちょっとまとめておこうと思います。題して「何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか」というお話です。 問題意識としては毎回引き合いに出しているこちらの過去記事で論じられているような「ワナビーデータサイエンティスト」たちをどう導くべきかという議論が以前から各所であり、それらを念頭に置いています。なお毎度のことで恐縮ですが、僕も基本的には独学一本の素人ですので以下の記述に誤りや説明不足の点などあればご指摘くださると幸いです。 一般的なソフトウェア開発と、統計分析や機械学習との違い 統計分析や機械学習を仕事にするなら、その「振る舞い」を体系立てて学ぶ必要がある きちんと体系立てて学ばなかった結果として陥りがちな罠 余談

                  何故データサイエンティストになりたかったら、きちんと体系立てて学ばなければならないのか - 渋谷駅前で働くデータサイエンティストのブログ
                • 異常検知入門と手法まとめ - Qiita

                  異常検知について勉強したのでまとめておきます。 参考文献 下記文献を大いに参考にさせていただきました: [1] Ruff, Lukas, et al. "A Unifying Review of Deep and Shallow Anomaly Detection." arXiv preprint arXiv:2009.11732 (2020). [2] 井手. "入門 機械学習による異常検知―Rによる実践ガイド" コロナ社(2015) [3] 井手,杉山. "異常検知と変化検知 (機械学習プロフェッショナルシリーズ)" 講談社サイエンティフィク(2015) [4] 比戸. "異常検知入門" Jubatus Casual Talks #2(2013) [5] Pang, Guansong, et al. "Deep learning for anomaly detection: A rev

                    異常検知入門と手法まとめ - Qiita
                  • 首相のウクライナ訪問、「うまい棒」が支援物資? 判明した意外な中身は…

                    岸田文雄首相がウクライナの首都キーウを電撃訪問した際、支援物資としてお菓子の「うまい棒」を大量に持参したのでは、とSNSで話題になっている。ポーランド南東部プシェミシルの駅からキーウ行きの列車に乗り込む首相をとらえたNHKの映像に、日本政府関係者がうまい棒の段ボール箱を一緒に運び込む様子が映っていたからだ。だが、関係者への取材で判明した箱の中身は、別の意外なものだった…。 SNSでは、うまい棒の箱に注目した人たちが「ゼレンスキー大統領の好物?」「中身は何なんだろう…」などとさまざまな考察を巡らせている。 だが、政府関係者への取材によれば、箱の中身は、首相の地元・広島県の宮島で作られた50センチ大の「しゃもじ」だという。しかも、ゼレンスキー氏宛てに「必勝」の文字と「岸田文雄」の署名入り。しゃもじは「敵を召し(飯)取る」との意味で、験担ぎにも使われている。首相はロシア相手に勝利できるよう、ゼレ

                      首相のウクライナ訪問、「うまい棒」が支援物資? 判明した意外な中身は…
                    • 統計検定1級(2021)を受験した話(統計数理の試験対策・勉強編) - Taro Masuda’s diary

                      この記事は何? タイトルの通り、2021年の統計検定1級試験を受験し統計数理に合格してきたので、記憶が鮮明なうちに勉強してきた内容をメモしておこうと思います。ちなみに、統計検定は私にとって今回が(級によらず)初めての受験でした。 対策・勉強した内容以外の、当日の受験体験記は以前に公開していますので、そちらもご興味あればぜひ併せてご覧ください。 taro-masuda.hatenablog.com 免責 あくまで個人的な方法論であるため、本記事の情報が必ずしも今後の試験においてそのまま有効であるとは限りませんのでご注意ください。損失等をこうむられた場合であっても、筆者は一切の責任を負いかねます。 TL;DR 久保川先生の教科書『現代数理統計学の基礎』の2~8章の章末問題((*)印は飛ばす) + 統計数理は過去問を仕上げました。過去問は1ヶ月以上前からやるのがお勧めです。 現代数理統計学の基礎

                        統計検定1級(2021)を受験した話(統計数理の試験対策・勉強編) - Taro Masuda’s diary
                      • 全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ

                        (Image by Pixabay) 「データサイエンティスト」の第一次ブーム勃興から6年余り、人工知能ブームに便乗した第二次ブームで人口に膾炙してから3年余り、気が付いたら何やかんや言われながらもデータサイエンティスト及びその類似職が、じわじわと日本国内の産業各分野・企業各社に広まりつつあるように僕の目には映ります。 そういう背景がある中で、ここ1年ぐらいの間にそこかしこで目立つようになってきたのが「ゼロからデータサイエンティストを育てたいのだがどうしたら良いか」という相談や議論。割とあるあるなのが「取引先がデータサイエンティストを採用して商談の席に同席させるようになって、彼らがデータサイエンスの知識を駆使してビシバシ突っ込んでくるのだが、こちらにデータサイエンティストがいないので対応できない」みたいなお話。これは実はUSでも同様だと聞くので*1、案外洋の東西を問わない課題なのかもしれま

                          全くのゼロから「駆け出しデータサイエンティスト」を育てる方法論 - 渋谷駅前で働くデータサイエンティストのブログ
                        • 2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ

                          (Image by wal_172619 from Pixabay) 去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない!」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も推薦書籍リストを公開しようと思います。 初級向け6冊 実務総論 データサイエンス総論 R・Pythonによるデータ分析プログラミング 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別15冊 回帰モデル PRML 機械学習の実践 Deep Learning / NN 統計的因果推論 ベイズ統計学 時系列分析 グラフ・ネットワーク分析 データ基盤 コメントや補足説明など 完全なる余談 初級向け6冊 今回は新たに加わったテキストがあります。 実務総論 AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出

                            2023年版:実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト(初級6冊+中級8冊+テーマ別15冊) - 渋谷駅前で働くデータサイエンティストのブログ
                          • 2023年版データ分析の100冊 - Qiita

                            わ、去年2023-08-26にこの記事書いたんだね。まる1年だね。2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊書きましたよ。 【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本がご好評いただいてましたが古くなりごちゃごちゃしているので新たに作り直しました 本記事のめあて IT系の技術者の方がデータ分析関連の仕事をするために役立つ本を紹介する(私が学び始めた時にあれば欣喜雀躍したであろう)記事として書いております。 本記事作者の青木はバイオインフォマティクス(ゲノムデータのDB化中心・Perl・MySQL)からRで時系列分析→Pythonでデータ分析一般と業務をしてまいりました。 ですので研究者目的の本はありません。また、データ分析の基礎は主にRで学んだのですが、昨今の流行に合わせてPython本を中心に

                              2023年版データ分析の100冊 - Qiita
                            • 実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

                              (Image by Pixabay) この記事は以下のオススメ書籍リスト記事のアップデートです。 毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいという、主に初級ないし中級ぐらいのスキルレベルの人たちにお薦めしたい書籍を、初級向け5冊・中級向け8冊及び細かいテーマ別に11冊、それぞれ挙げていきます。スタンスとしては相変わらず「当座の最終到達点を『中級』に置いた時に最初に読んで内容をマスターしておくべき書籍」を初級に置いているので、世の中のこの手のお薦め書籍リストに比べると若干ハードな内容のものが初級向けに多いかもしれません。 後はちょっと気が早いかもしれませんが、機械学習パートに関しては「AutoML時代にあっても実務の専門家であれば知っておくべき知識」を収めた書籍を選んでおきま

                                実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
                              • Chainer を振り返って

                                2015 年 4 月 12 日に Chainer の最初のコードをコミットしてから,およそ 4 年半と少しが経ちました.はじめのはじめは軽い気持ちで書きはじめたコードでしたが,今では一線級の研究を立派に支えるまでになりました.深層学習フレームワークの世界も当時とは様変わりして(当時は TensorFlow も PyTorch もなかったわけですから,本当に変わりました),思えば遠くにきたものです. 今日,PFN は社内の研究開発に用いる主なフレームワークを PyTorch に移行すると発表しました.会社にとってももちろんですが,業務としてはこの 4 年半,Chainer 一筋でやってきた自分にとっては特に,大きな転換点です. まず率直な感想として,Chainer の開発は本当に楽しかったです.書きはじめた頃は,深層学習フレームワーク競争の真っ只中で,Theano の上に乗っかるフレームワー

                                • 『ベイズ深層学習』が最高すぎた - 日常と進捗

                                  今回は書評エントリー。 ちょうど今日の午前中に須山さんの『ベイズ深層学習』を読み終えた。 読了。 控えめに言って、スゴかった。 まじでボリュームたっぷりでものすごく読み応えのあった一冊だったと思う。 ベイズ機械学習に詳しくない人でも読めるし(簡単とは言ってない)ホントに全人類におすすめしたい。 pic.twitter.com/Lbfs6Rr9JM— コミさん (@komi_edtr_1230) January 15, 2020 ものすごく良かったのでここで全力で宣伝しようと思う。 概要 本書はベイズ統計と深層学習の組み合わせについて詳説した一冊で、頻度論に基づく線形回帰と確率分布の基礎の解説から始まり、そこから線形回帰やニューラルネットワークがベイズ的にどのように説明できるかについて展開、そこから深層学習のベイズ的な説明をしてガウス過程へとたどり着く構成となっている。 本書の魅力はなんとい

                                    『ベイズ深層学習』が最高すぎた - 日常と進捗
                                  • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

                                    この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標本抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

                                      「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
                                    • 正しいIT用語の読み方

                                      最近の若者は物を知らない。 IT企業に就職したのに、IT用語の読み方を間違える恥ずかしいやつが多くて困る。 新入社員でもこれぐらいは抑えておいてほしい。 nginx: んぎぃぃっんくすhtml: はとむるAlt: あるとhidden: ひでんheight: へいとnull: ぬるUbuntu: うぶんつPHP: ぺちぷUPnP: うぴんぴPPPoE: ぽぽぽえーIEEE: いえぇぇーHDMI: はどみUSB: うさびーWi-Fi: うぃっふぃーLaTeX: らてっくすPython: ぴちぉんDjango: どじゃんごNode: のでVue: ぶえーAngular: あんぐらGitHub: ぎふはぶSourceForge: そーすふぉげQiita: ちーたーPRML: ぷれもるGAN: ぎゃんDQN: どきゅんMCMC: もこもこASUS: あざっすAirBnB: えあぶんぶApp: あぷぷ

                                        正しいIT用語の読み方
                                      • シリーズ一覧 - 共立出版

                                        シリーズ一覧

                                          シリーズ一覧 - 共立出版
                                        • 失敗から学ぶ機械学習応用

                                          5. 5 目録 ◼ 私の失敗体験談(不均衡データの学習) ◼ 機械学習開発における壁 • 機械学習のビジネスフレームワーク「5D」 • Define(定義する) • Data(データを集める) • Development(開発する) • Deploy(実装する) • Drive(運用する) ◼ ビジネス応用における壁 • AIを使ったキュウリの自動選別 • 機械学習を使って売り上げに貢献する • 機械学習を使わない選択肢 ◼ まとめ 6. 6 目録 ◼ 私の失敗体験談(不均衡データの学習) ◼ 機械学習開発における壁 • 機械学習のビジネスフレームワーク「5D」 • Define(定義する) • Data(データを集める) • Development(開発する) • Deploy(実装する) • Drive(運用する) ◼ ビジネス応用における壁 • AIを使ったキュウリの自動選別 • 機

                                            失敗から学ぶ機械学習応用
                                          • 2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ

                                            毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。 その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると

                                              2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
                                            • 大学間コンソーシアム | 東京大学 数理・情報教育研究センター

                                              数理・データサイエンス・AI教育強化拠点コンソーシアム MIセンターは、2022年度政府予算に盛り込まれた「数理・データサイエンス・AI教育の全国展開の推進」事業の東京大学における実施主体です。 同事業で選定された29大学(拠点校11大学、特定分野校18大学)のコンソーシアムの幹事校として、大学、産業界、研究機関等と幅広くネットワークを形成し、地域や分野における先進的教育モデルの拠点として、数理・データサイエンス・AIの実践的教育の全国普及に努めます。 同時に、この分野を牽引できる国際競争力のある人材および産学で活躍できるトップクラスのエキスパート人材の育成を目指します。 [コンソーシアムホームページ] 数理・データサイエンス・AIの活用事例動画 本動画集は数理・データサイエンス・AIリテラシーレベル教材の導入となるような活用事例を収集したものです。数理・データサイエンス・AIリテラシーレ

                                              • 機械学習エンジニアに爆速でなるための教材集 - Qiita

                                                0. はじめに 昨今のAI、DXブームの影響で、機械学習、深層学習(ディープラーニング, Deep Learning) への注目は増すばかりですが、初学者の方にとって機械学習を学ぶハードルは依然高い状態かと思います。 機械学習、特にディープラーニングを習得するには学ぶべきことが多く、また分野によっては難易度が高いということもあり、学んでいる途中で挫折してしまうという人も多いという印象があります。 そこで本記事では、これから機械学習を学びたい方が自学自習する際の助けになるようにと、有用な自習コンテンツをまとめました。 本記事では、機械学習エンジニアとして実務に参画できるレベルを目指して、コンテンツを収集しました。よって機械学習の理論やライブラリに加え、社会実装する上で付随して必要となるソフトウェアエンジニアリングのスキルも含めています。 コンテンツについては、適宜追記していく予定です。 対象

                                                  機械学習エンジニアに爆速でなるための教材集 - Qiita
                                                • 『ウェブ最適化ではじめる機械学習』はモダンなUI/UX改善の枠組みを学ぶ上で至適の一冊 - 渋谷駅前で働くデータサイエンティストのブログ

                                                  ウェブ最適化ではじめる機械学習 ―A/Bテスト、メタヒューリスティクス、バンディットアルゴリズムからベイズ最適化まで 作者:飯塚 修平発売日: 2020/11/19メディア: 単行本(ソフトカバー) こちらの書籍を著者の飯塚修平さんからご恵贈いただきました*1。テーマとしてはウェブ最適化即ちいわゆるUI/UX改善で、そのアプローチについて包括的にまとめた内容です。ちなみに本書は著者ご自身の修士・博士論文の内容に沿ったもので、いわば大学院での研究の集大成とも言えるものなのだそうです。 と書くと、いかにも「ガッチガチの研究」本に見えるかもしれませんが、引用されている事例などには一般のユーザー・消費者でもある我々にも馴染み深いものが多く、意外と取っ付きやすい内容だなと個人的には感じました。また、A/Bテスト・バンディット・ベイズ最適化とそれぞれ個別に専門書が書かれることが多く、別々に学ぶ羽目にな

                                                    『ウェブ最適化ではじめる機械学習』はモダンなUI/UX改善の枠組みを学ぶ上で至適の一冊 - 渋谷駅前で働くデータサイエンティストのブログ
                                                  • Interpretable Machine Learning

                                                    Interpretable Machine Learning A Guide for Making Black Box Models Explainable. Christoph Molnar 2021-05-31 要約 機械学習は、製品や処理、研究を改善するための大きな可能性を秘めています。 しかし、コンピュータは通常、予測の説明をしません。これが機械学習を採用する障壁となっています。 本書は、機械学習モデルや、その判断を解釈可能なものにすることについて書かれています。 解釈可能性とは何かを説明した後、決定木、決定規則、線形回帰などの単純で解釈可能なモデルについて学びます。 その後の章では、特徴量の重要度 (feature importance)やALE(accumulated local effects)や、個々の予測を説明するLIMEやシャープレイ値のようなモデルに非依存な手法(mo

                                                    • 2020年版:実務の現場で求められるデータサイエンティスト・機械学習エンジニアのスキル要件 - 渋谷駅前で働くデータサイエンティストのブログ

                                                      (Image by Pixabay) この記事は、昨年の同様のスキル要件記事のアップデートです。 正直言って昨年バージョンとの差分は殆どないのですが、一応この1年間の業界の進歩を踏まえて僅かながらアップデートしてありますので、ベースとなっているスキル要件についてさらっと概観した上で、差分となるアップデート部分について簡単にコメントしておこうかと思います。 なお、いつもながらの断り書きですが。言うまでもなく、この記事の内容はあくまでも僕の個人的な意見にして、なおかつ僕自身がこれまでの経験と見聞に基づいて「これまで自分が属してきた組織やチームにおけるデータサイエンティストや機械学習エンジニアはこうだったor今後はこうあって欲しい」という最大公約数的な経験談や願望を書き並べたものに過ぎません。よって何かの組織や団体の意見を代表するものではありませんし、況してやauthorizeされた意見として見

                                                        2020年版:実務の現場で求められるデータサイエンティスト・機械学習エンジニアのスキル要件 - 渋谷駅前で働くデータサイエンティストのブログ
                                                      • K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ

                                                        クラスタリングに用いられるK-meansのクラスタ数決定方法については長く議論されてきた歴史があり、このブログでも以前ちょろっと取り上げたことがあります。 で、Twitterを眺めていたらタイムラインに面白い論文が流れてきました。それがこちらです。 タイトルを読んで字の如く「K-meansのクラスタ数を決めるのにエルボー法を使うのはやめろ」という論文なんですね。全体で7ページと非常にコンパクトで読みやすい内容なので、簡単にまとめて紹介してみようと思います。なおいつもながらですが、僕の技術的理解が不足しているが故の誤りなどが混じる可能性がありますので、その際はコメント欄などでご指摘くださると幸いです。 あるtoy dataに対するK-meansの結果 目検に頼らないエルボー法について考える ならば、既存のクラスタ数決定法の中では何を選ぶべきか そもそもK-meansが有効でないケースもあるこ

                                                          K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ
                                                        • 2021年版:データサイエンティストを初めとするデータ分析職向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ

                                                          (Image by Pexels from Pixabay) 今年も恒例の推薦書籍リストの季節がやって参りました。……なのですが、昨年はCOVID-19の影響で*1データ分析業界及び隣接分野の新刊書を読む機会が減ってしまいましたので、例年に比べてラインナップの変更をほとんど検討しないままでリストアップしている点、予めご容赦いただければと思います。 そして今回の記事では、これまで以上に「実務家向け」「実践的」であることを重視しています。そのため昨年までのリストに比べて大幅に刷新されているカテゴリもあったりします。また、末尾に僕なんぞが選ぶよりもずっと優れた推薦書籍リストへのリンクも付しておきました。併せて参考にしていただけると幸いです。 初級向け5冊 総論 統計学 機械学習 中級向け8冊 統計学 機械学習 テーマ別14冊 PRML 機械学習の実践 Deep Learning 統計的因果推論

                                                            2021年版:データサイエンティストを初めとするデータ分析職向け推薦書籍リスト(初級5冊+中級8冊+テーマ別14冊) - 渋谷駅前で働くデータサイエンティストのブログ
                                                          1