並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 236件

新着順 人気順

ランダムフォレストの検索結果1 - 40 件 / 236件

  • 実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング - エンジニアHub|Webエンジニアのキャリアを考える!

    実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング 実践とともに、データサイエンスに入門しよう!敷居が高いと思われがちなデータサイエンスですが、データの前処理からの手順は意外とシンプルです。本記事では、データの前処理や特徴量の作成、モデルの評価・訓練、ハイパーパラメータの調整など、基本的な知識をサンプルコードと図表を見ながら学びます。 データサイエンティストとしてのスキルを向上させるには、データの前処理や特徴量の作成、モデルの評価・訓練、ハイパーパラメータの調整など、広域にわたる知識を身に付ける必要があります。 この記事は、そうした知識を「サンプルコードと図表を見ながら、分かりやすく学習できること」を目指して作成されました。記事内では、新米データサイエンティストのOさんが登場して、ある案件のデータ分析を担当します。読者のみなさんも、ぜひOさんと一緒

      実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング - エンジニアHub|Webエンジニアのキャリアを考える!
    • 機械学習で使用する手法を全公開 - Qiita

      株式会社デジサク がお送りするプログラミング記事、 今回はAI(機械学習)について扱っていこうと思います。 ※ 無料セミナーも開催中なので、ぜひご覧になってみて下さい。 はじめに kaggleや学習サイトなど誰でも機械学習を学べる機会が増えてきました。 その反面、情報量が多すぎて全体感を掴めていない人が多いと感じています。 そこで、様々な参考書や記事で紹介されている機械学習で使用する手法を全公開しようと思います。 細かなコーディングはリンクを貼っておくので、そちらを参照されてください。 SNS でも色々な情報を発信しているので、記事を読んで良いなと感じて頂けたら Twitterアカウント「Saku731」 もフォロー頂けると嬉しいです。 機械学習の一連手順 まず、機械学習を習得するために必要なスキルは下記です。 実務の場では数段細かな作業が必要になりますが、最初は下記を勉強するだけで十分で

        機械学習で使用する手法を全公開 - Qiita
      • データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ

        (Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ

          データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ
        • [Python]機械学習などでテキストデータを特徴量にする際のソースコード集

          都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト テキストデータの特徴量化について 仕事ではテキストデータを多用するので、機械学習などで扱うためにテキストデータを特徴量にするためのアプローチを色々と整理してソースコードを残しておきたいと思います。今回はあくまでも私の知っているものだけなので、網羅性はないかもしれませんが悪しからず。 (2019/08/18 追記)Stackingをカジュアルに行えるvecstackというモジュールを用いた予測も試してみました。下の方の追記をご覧ください。 アプローチ テキストデータを特

            [Python]機械学習などでテキストデータを特徴量にする際のソースコード集
          • 『マスターアルゴリズム』は全ての人々を機械学習(人工知能)の世界へといざなう「冒険物語」 - 渋谷駅前で働くデータサイエンティストのブログ

            しましま先生(@shima__shima)こと神嶌敏弘先生から、訳書『マスターアルゴリズム』をご恵贈いただきました。 マスターアルゴリズム 世界を再構築する「究極の機械学習」 作者:ペドロ・ドミンゴス講談社Amazon 本書はビル・ゲイツが「AIを知るための本」と絶賛したという"The Master Algorithm"の邦訳版で、実際に「難しい理論や数式は書かれていないがこの一冊を読むだけで現代の機械学習(人工知能)の世界の全容を一望できる」優れた本だと個人的には感じました。また縦書き本ゆえいわば「読み物」的な立ち位置の書籍であり、研究者や技術者のみならずビジネスパーソンさらには一般の読書家にとっても読みやすく、尚且つ得るものの大きい一冊だと思います。 ということで、以下簡単にレビューしていきたいと思います。なお実は僕自身もしましま先生から発刊前の段階で翻訳内容の閲読を依頼されて一通り目

              『マスターアルゴリズム』は全ての人々を機械学習(人工知能)の世界へといざなう「冒険物語」 - 渋谷駅前で働くデータサイエンティストのブログ
            • ディープラーニング(Deep Learning)の歴史を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

              先日Quora日本語版でこんな回答を書いたのですが、ついでなので少し文脈情報を付け足してブログの方に再録することにしました。理由は単純で、このブログでディープラーニングの歴史についてまとめた記事を今まで書いてきたことがなく、そしてブログ記事にした方がより認識違いや調査不足などについての指摘をもらいやすいと思われたからです。ということで、以下の説明に関してツッコミがあれば是非コメント欄などにお寄せくださいm(_ _)m (A Neural Network Playground) ディープラーニングを語る上で、その前史であるパーセプトロン、そして(人工)ニューラルネットワークの話題は欠かせません。以下大まかに説明していきましょう。(※歴史解説中では敬称略、各種用語は原則カナ表記*1) パーセプトロンの登場 ミンスキーによる批判と第1の冬の時代 誤差逆伝播学習則と中間層を用いたニューラルネットワ

                ディープラーニング(Deep Learning)の歴史を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
              • 機械学習初心者のためのおすすめ教材について(動画編) - Qiita

                機械学習を完全に独学でやった者です。今回は自分は様々な教材を使ってきましたが、その教材のうち動画についての感想を述べていこうと思います。 具体的には ・Udemy ・Coursera(machine learning) の二つを経験したので、それぞれについてのレポートをします。 自分はUdemyではとても多くの講座を見てきたのでそれぞれについてレビューしていきます ちなみにこれが自分が行ってきた講座一覧です ではまずUdemyから見ていきたいと思います。他にもいくつかの動画を見ましたが、その中でもオススメなものをピックアップして説明していきます。 Udemyとは オンラインで受けれるコースです。値段を見ると普段1コースあたり12000円とかしてとても高いと感じるかもしれませんが、バーゲンを異様に多くするのが特徴で、バーゲン期間には値段が10分の1ほどになります笑、一週間に一度ほど安くなりま

                  機械学習初心者のためのおすすめ教材について(動画編) - Qiita
                • 特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット

                  なぜこの記事を書いたのか? 決定木をベースにしたアルゴリズムのほとんどに特徴量重要度という指標が存在する。データに対する知識が少ない場合はこの指標を見て特徴量に対する洞察深めることができる。KaggleではEDAのときにとりあえず重要度を見てみるなんてこともするようだ。 しかし、この特徴量重要度にはバイアスが存在していて、特定の条件下では信用出来ないことがある。そういった条件を広く知ってほしいということでこの記事を書いた。 この記事では人工データを生成しバイアスを再現してみた。また、こういったバイアスに対処したという論文を見つけたので軽く紹介する。おまけとしてgainベース以外の特徴量重要度についても紹介する。 目次 なぜこの記事を書いたのか? 想定読者と実験の枠組み 想定読者 限定する枠組み 特徴量重要度とは? 特徴量重要度にバイアスが生じる条件 1. 解像度が低い場合 2. 特徴量同士

                    特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット
                  • 大学生のためのデータサイエンス(Ⅱ)

                    講座内容 前回の「大学生のためのデータサイエンス(Ⅰ)」では、データサイエンス全般についての概観を与えることを目的にして、現代社会におけるデータサイエンス、データ分析の基礎、コンピュータを用いたデータ分析、データサイエンスの応用事例について4週間で説明しました。 今回の(Ⅱ)では、技術的により進んだ内容として、機械学習の諸手法とその応用について説明します。まず、機械学習とは何かという説明から始め、その後に機械学習の応用事例を紹介します。応用事例を先に見ることによって、機械学習の有用性が理解でき、機械学習の手法をより積極的に学ぶことができると期待されます。次に分類問題と回帰問題の具体的な手法を説明し、同時に特徴量の設計・選択など、実践的なテクニックについても紹介します。最後に、近年、発展の著しいニューラルネットワークについて説明します。 本講座は、機械学習の分野の中でも教師あり学習を中心に進

                      大学生のためのデータサイエンス(Ⅱ)
                    • データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介) - 渋谷駅前で働くデータサイエンティストのブログ

                      (Image by Pixabay) "Top 10 Statistics Mistakes Made by Data Scientists"という刺激的なタイトルの記事が出ているのをKDnuggets経由で知りました。「データサイエンティストがやらかしがちな統計学的な誤りトップ10」ということで、いかにもなあるある事例が色々載っていて面白いです。 ということで、今回はこの記事を全訳にならない範囲で抄訳して、その内容を吟味してみようと思います(直訳しても意味が取りづらい箇所が多かったためかなりの部分を抄訳ながら意訳しています:こういう訳の方が良いなどのコメントあれば是非お寄せください)。言わずもがなですが、こういう海外記事紹介をやる時はネタ切れということです、悪しからず。。。 元記事の内容 1. Not fully understand objective function(目的関数が何か

                        データサイエンティストがやらかしがちな過ちトップ10(海外記事紹介) - 渋谷駅前で働くデータサイエンティストのブログ
                      • ランダムフォレストによる因果推論と最近の展開

                        フォレストワークショップ2023で行った招待講演の内容 ・honest treesとは? ・Causal treesによる因果推論 ・Random forestの漸近正規性と、causal forestによる因果推論 ・Generalized random forestによる因果推論

                          ランダムフォレストによる因果推論と最近の展開
                        • 28歳、一念発起して未経験からデータサイエンティストを志した2年間の軌跡 - Qiita

                          はじめに 経済産業省の試算によるとAIやビッグデータといったデータサイエンティストが関わる分野では2020年に4.8万人が不足すると言われています。 まだまだ、世の中的に需要があり、将来性のある職業ですので、これから目指そうと思われている方も少なくないのではないでしょうか。 私も時代の流れに乗って、データサイエンティストを目指した人の一人です。 「一念発揮して未経験からデータサイエンティストを目指した普通の社会人が、2年後どのような姿になったのか?」 ということに、少しでも興味のある方に読んで頂けましたら幸いです。 そもそもデータサイエンティストとは データサイエンティストは大きく分けて2種類あると考えています。 企業の課題解決のために大規模データを分析し、その結果をもとに状況の改善をすべく施策立案を行うデータアナリスト・コンサルタント寄りのDS サービスに機械学習を用いた機能を実装したり

                            28歳、一念発起して未経験からデータサイエンティストを志した2年間の軌跡 - Qiita
                          • 無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita

                            こんにちはkamikawaです 今回は無料で利用できる機械学習、データサイエンスに関するサイトや書籍をまとめました 私自身も機械学習プロジェクトに関わった経験があるのですが、ここに載せたサイトや資料を勉強に使っていました 機械学習エンジニアを目指す人必見です 入門者レベル〜応用・発展レベルまで幅広く載せていますレベルは個人の見解です。(あくまでも参考程度に) 日本語のものと英語のものを紹介します 海外の大学の講義もあるので英語の勉強にも使えます 海外でのキャリアを考えている方も必見です 対象読者 機械学習を学びたいけどお金をかけたくない人 独学で機械学習を身につけたい人 機械学習エンジニアになりたい人 発展的な機械学習を学びたい人 日本語 Python 三重大学奥村教授のサイト 機械学習、様々な分析、スクレイピング、データ可視化、地図データ、CV、統計など幅広い分野を扱っている R編もある

                              無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita
                            • 2020年版:実務の現場で求められるデータサイエンティスト・機械学習エンジニアのスキル要件 - 渋谷駅前で働くデータサイエンティストのブログ

                              (Image by Pixabay) この記事は、昨年の同様のスキル要件記事のアップデートです。 正直言って昨年バージョンとの差分は殆どないのですが、一応この1年間の業界の進歩を踏まえて僅かながらアップデートしてありますので、ベースとなっているスキル要件についてさらっと概観した上で、差分となるアップデート部分について簡単にコメントしておこうかと思います。 なお、いつもながらの断り書きですが。言うまでもなく、この記事の内容はあくまでも僕の個人的な意見にして、なおかつ僕自身がこれまでの経験と見聞に基づいて「これまで自分が属してきた組織やチームにおけるデータサイエンティストや機械学習エンジニアはこうだったor今後はこうあって欲しい」という最大公約数的な経験談や願望を書き並べたものに過ぎません。よって何かの組織や団体の意見を代表するものではありませんし、況してやauthorizeされた意見として見

                                2020年版:実務の現場で求められるデータサイエンティスト・機械学習エンジニアのスキル要件 - 渋谷駅前で働くデータサイエンティストのブログ
                              • 【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) - 株式会社ホクソエムのブログ

                                ホクソエムサポーターの白井です。 今回は Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳を紹介します。 原著者の許可取得済みです。 Thank you! アメリカの国内ネタも含んでいて、日本語だと理解しにくい箇所もありますが、機械学習の技術的負債をどう対処していくかについて、とても役に立つ記事だと思います。 Nitpicking Machine Learning Technical Debt (機械学習の技術的負債の重箱の隅をつつく) イントロダクション Part1 技術的負債はあなたの予想以上に悪い Part2 機械学習の漠然とした性質 Part3 (通常の依存関係の頂上にある) データ依存関係 Part4 イライラさせるほど未定義なフィードバックループ 後編に続きます Nitpicking Ma

                                  【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) - 株式会社ホクソエムのブログ
                                • 95%信頼区間の「95%」の意味 - 渋谷駅前で働くデータサイエンティストのブログ

                                  ふと思い立ってこんなアンケートを取ってみたのでした。 頻度主義統計学における「95%信頼区間」の95%というのは、以下のどちらだと思いますか— TJO (@TJO_datasci) 2021年7月16日 結果は物の見事に真っ二つで、95%信頼区間の「95%」を「確率」だと認識している人と、「割合」だと認識している人とが、ほぼ同数になりました。いかに信頼区間という概念が理解しにくい代物であるかが良く分かる気がします。 ということで、種明かしも兼ねて95%信頼区間の「95%」が一体何を意味するのかを適当に文献を引きながら簡単に論じてみようと思います。なお文献の選択とその引用及び解釈には万全を期しているつもりですが、肝心の僕自身が勘違いしている可能性もありますので、何かしら誤りや説明不足の点などありましたらご指摘くださると有難いです。 頻度主義において、95%信頼区間の「95%」は「割合」を指す

                                    95%信頼区間の「95%」の意味 - 渋谷駅前で働くデータサイエンティストのブログ
                                  • 【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita

                                    AI Academy Bootcamp 6ヶ月35,000円にてチャットで質問し放題の環境で、機械学習やデータ分析が学べるサービスを提供しております。 数十名在籍しているデータサイエンティストや機械学習エンジニアに質問し放題の環境でデータ分析、統計、機械学習、SQL等が学べます。AI人材に必要なスキルを効率よく体系的に身に付けたい方は是非ご検討ください! https://aiacademy.jp/bootcamp この記事の対象者 ・将来Pythonでデータ解析をしたいと考えているが、何から手をつけたら良いか知りたい方 ・将来、人工知能に関連した業務に携わりたいと検討中の初学者の方 ・未経験者からAIエンジニアになりたく、そのためにどのような知識が必要か知りたい方 ・AIプログラミングスクールや専門学校に進学しようか考えているが、独学で勉強できる方法を知りたいという方 対象ではない方 ・既

                                      【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita
                                    • 一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

                                      この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。 時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予測精度の向上ではないことも実験で示している。機械学習の研究では統計モデルとの比較も入れるべきという提言をしている。 https://t.co/jboGhYSX6E— piqcy (@icoxfog417) September 16, 2019 この点について僕はこんなコメントをしたのですが。 だいぶ以前から「一般的な時系列データ予測の問題は単位根過程や季節調整など非定常過程との戦いなので、本質的に定常過程を想定する機械学習手法での予測は計量時系列分析など非定常過程も考慮した古典的なモデルによる予測には及ばない」と言い続けてきたけど、やっ

                                        一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
                                      • 【無料】データサイエンス入門:機械学習編全35回まとめと目次

                                        こんにちは,米国データサイエンティストのかめ(@usdatascientist)です. (追記)動画版も公開しました!全38時間の3部作という超大作です 【日本一の高評価】機械学習超入門講座(前編&後編)を公開しました!! 【ついに3部完結】機械学習超入門講座の本番編を公開しました!! いやーついに長かったデータサイエンス入門機械学習編35回分の記事を書き終えました!! 本記事はそのまとめです.目次として使ってください. 目次 線形回帰 第1回: 機械学習とは?なにをしているのか? 第2回: 線形回帰の損失関数をわかりやすく解説 第3回: 最急降下法を図と数式で理解する(超重要) 第4回: 正規方程式を完全解説(導出あり) 第5回: scikit-learnを使って線形回帰モデルを構築する 第6回: 線形回帰の係数の解釈の仕方(p値) 評価 第7回: (超重要)過学習と汎化性能を理解する(

                                          【無料】データサイエンス入門:機械学習編全35回まとめと目次
                                        • プログラミング初心者がKaggle Expertになるまでの10ヵ月間を振り返る - Qiita

                                          Kaggle Expertになったので、イキってポエムを書こうと思いました。 AIに興味あるけどプログラミングすらできないんだよねという人向けの参考になれば幸いです。 1. 初期スペック (2019年2月) 機械工学系修士卒。よくいるメカニカルエンジニア 線形代数も統計も正直そんなに好きじゃない。力学の方が得意。 AI?あれでしょ。将棋超強いやつでしょ? パイソン?スト2のボクサーみたいなやつ? 2. 現在のスペック (2019年12月) Kaggle Expert (微妙?) 機械学習コンペでそれなりの成績 (Kaggle Kuzushiji Recognition 7th,Signate tellus 3rd 5th) 機械学習:なんとなくコーディングできる。 深層学習:なんとなくコーディングできる。 関連論文読める。簡単なものは実装できる。 業務適用も見えてきた 3. 機械学習を学ん

                                            プログラミング初心者がKaggle Expertになるまでの10ヵ月間を振り返る - Qiita
                                          • 移り変わる「データサイエンティストの『常識』」について考える - 渋谷駅前で働くデータサイエンティストのブログ

                                            (Image by Pixabay) 先日、こんな話題を見かけました。 【夏なので怖い話】 こないだ、いかにもエリートな男性と知り合ったんですよ 彼は年収1000万で飛ぶ鳥を落とす勢いのデータサイエンティストだっていうじゃないですか それでふとAICの話題を持ちかけたんです 「あー現実であまり使わない数学の話はわかりません」 …おわかりいただけただろうか?— ゆうな (@kawauSOgood) 2019年8月14日 で、悪ノリした僕はこんなアンケートをやってみたのでした。 データサイエンティストという肩書きで年収1000万円以上の高給取りが、知らなかったとしても許される項目はどれですか— TJO (@TJO_datasci) 2019年8月15日 このアンケート結果こそが、今回の記事を書こうと思ったきっかけです。ある程度知識のある方ならお分かりかと思いますが、ここで挙げた「AIC」「正則

                                              移り変わる「データサイエンティストの『常識』」について考える - 渋谷駅前で働くデータサイエンティストのブログ
                                            • データサイエンティストに王道無し - 渋谷駅前で働くデータサイエンティストのブログ

                                              TL;DR(思ったよりもかなりの長文になってしまったので*1、時間がないという方は1番目と2番目のセクションの冒頭だけお読みください) しんゆうさんの舌鋒鋭いブログ&note記事にはいつも楽しませていただいているのですが、この記事は一点僕のデータ分析業界の認識に新たな視点を与える話題があって特に目を引きました。それが以下の箇所です。 資格があるわけでもないので名乗るのは自由だし、未経験だろうが文系だろうがそれはどうでもいいのだけど、傍から見ていると「サイエンティスト」と名乗っているわりには「サイエンス」な話をしていないなぁとは思っている。(中略) 現在起きている第3次データサイエンティストブームは「データサイエンティストと名乗りたい人」が盛り上げているように見える。 (太字筆者) この問題は、このブログの前々回の記事でも取り上げています。 ただ、僕はこういう「データサイエンティストになりた

                                                データサイエンティストに王道無し - 渋谷駅前で働くデータサイエンティストのブログ
                                              • 言語学の世界でも統計と機械学習という2つの文化が対立 - Qiita

                                                機械学習と統計学、予測と因果など、これまでにもこうした違いについて何回か取り上げてきました。 実は言語学、自然言語の研究分野でもこうした違いに関しての論争があります。その中でも有名なのは、近代の言語学の父とも言われるノーム・チョムスキーと、AI分野の第一線の研究者でGoogleの研究部門のディレクターでもあるピーター・ノーヴィグの間でのものです。 そのことについて触れている「Predicting vs. Explaining」というおもしろい記事があったのでここで紹介します。 以下は一部の要約です。 チョムスキーは、言語というデータのなかにある法則性を説明することができないのであれば、それはサイエンスではないと主張します。 それに対して、ノーヴィグはそもそも言語とは説明できるほど単純なものではなく、逆にその複雑性を受け入れたモデルを作ったからこそ、近年の自然言語の分野で見られる飛躍的なイノ

                                                  言語学の世界でも統計と機械学習という2つの文化が対立 - Qiita
                                                • Pythonではじめる教師なし学習

                                                  教師なし学習はラベル付けされていないデータから学習する機械学習の一種です。現在の機械学習では大量のラベル付きのデータを用いる教師あり学習が主流ですが、ラベルを付けるには膨大なコストがかかります。現実世界に機械学習を適用していくためには、ラベル付けを必要としない教師なし学習の重要性が増してくると考えられます。本書は実践的な視点から、データにある隠れたパターンを特定し、異常検出や特徴量抽出・選択を行う方法を紹介します。ラベルなしデータを有効に利用することで、機械学習の可能性を各段に広げる教師なし学習の本質に迫ります。さらに、変分オートエンコーダ(VAE)や敵対的生成ネットワーク(GAN)、制限付きボルツマンマシン(RBM)などの生成モデルも紹介します。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書

                                                    Pythonではじめる教師なし学習
                                                  • 【論文紹介】統計学の過去50年における最も重要なアイディアとは? - Qiita

                                                    こんにちは,株式会社Nospare・千葉大学の小林です.本記事ではGelman and Vehtari (2020)の`What are the most important statistical ideas of the past 50 years?'について紹介します.この論文は過去50年において最も重要だとされる次の8つのアイディアが取り上げられています. 8つのアイデア 反事実(counterfactual)に基づく因果推論 ブートストラップとシミュレーションに基づいた推論 オーバーパラメータ(overparameterized)モデルと正則化(ガウス過程,Lasso, horseshoe, ベイズnonparametric priorなど) ベイズマルチレベル(階層)モデル 汎用的な計算アルゴリズム(EM, MCMC, SMC, HMC, 変分法など) 適応的決定分析(ベイズ最

                                                      【論文紹介】統計学の過去50年における最も重要なアイディアとは? - Qiita
                                                    • XGBoost論文を丁寧に解説する(1) - Qiita

                                                      はじめに 勾配ブーストを用いた決定木(GBDT)によるクラス分類や回帰はデータ分析コンペでも非常によく使われています。 その中でも2016年に出されたXGBoostはLightGBMと並びよく使われている手法です。 性能が良いことで有名なXGBoost, LightGBMですが、モデル内部でどのような処理が行われているかよくわかっていなかったので論文を読んでみました。 式変形の省略が多く、またイメージしづらい箇所もあり、読みづらかったのですが 一度イメージできれば割とあっさり理解できます。 その体験を踏まえて、イメージ図を多く取り入れながらXGBoostの論文を(途中まで)丁寧に解説します。 XGBoost: A Scalable Tree Boosting System 論文 この記事で述べること データの入出力 XGBoostの木構造 損失関数とboosting 木構造の学習(spli

                                                        XGBoost論文を丁寧に解説する(1) - Qiita
                                                      • ChatGPTプラグイン「Notable」だけでデータ分析コンペに挑戦してみた話 - Qiita

                                                        ChatGPTプラグインの「Notable」を使って、データ分析コンペに挑戦してみたところ、想像以上の結果を出してくれたので共有します。 今回は人間は簡単な指示を出すだけで、ほとんど全てをChatGPTに任せる方針で行なっています。 こちらの記事のように上位6.5%に入りました!という華やかな結果にはなりませんでしたが、予想以上の結果にはなったのでぜひ最後まで読んでみてください!! データサイエンティストがChatGPTを活用するための記事をまとめているので、こちらもぜひ参考にしてみてください。 ChatGPTプラグインとは ChatGPTプラグインは、ChatGPTをサードパーティのアプリケーションと連携させるツールです。 これは、GoogleスプレッドシートのアドオンやGoogle Chromeの拡張機能と同様に、公式だけでなく第三者の開発者が作成した機能をChatGPTに追加すること

                                                          ChatGPTプラグイン「Notable」だけでデータ分析コンペに挑戦してみた話 - Qiita
                                                        • Courseraのオンライン修士2年目が終わった

                                                          以前にこちらのブログを書いて、その後も継続して読まれているようなので、近況をアップデートしておきます。 私は誰?高山です。2020年からNewsPicksでCTOをしています。上の記事を書いたときはピクシブでCTOをしていました。 2017年頃からぼんやりと大学院入学を考えはじめたのですが、そしたらたまたまイリノイ大学のことを知って書いたのが上の記事です。それから1年ほどかけて準備して出願して、ちょうど転職した月とまったく同じ2020年の2月に入学して社会人大学院生をしています。 コースについてまず、University of Illinoisと名の付く大学にはUrbana-Champaign (UIUC)とChicago (UIC)とSpringfield (UIS)の3つの大学があります。これらは別々の大学です。早稲田と慶應ぐらい別物だと思います。 Courseraで入学できるのはUI

                                                            Courseraのオンライン修士2年目が終わった
                                                          • ダーツが命中するかどうか、刺さる直前に教えてくれる装置を作った - Qiita

                                                            ダーツが狙ったところに刺さるかどうか、投げた直後、つまり刺さる直前にお知らせすることで、0.2秒待てば分かることを0.2秒前に知って一喜一憂するためのアプリを作りました。 何を作ったか まず、的に向かってダーツを投げましょう。その様子をカメラで撮影し、その映像をもとにPCで姿勢推定を行います。推定された姿勢をもとに、ルールベースでダーツを投げたことをPCで検知します。 投てきを検知したら、1秒分のデータをさかのぼって機械学習モデルに入力し、ダーツがブル(中心)に刺さるのかどうか予測します。その際、Edge TPUという高速で機械学習の予測を行うデバイスを利用します。 機械学習の判定の結果、ブルに刺さると思ったら「ピンポーン」外れると予測されたら「ブブー」と音がなって知らせてくれます。この時点でまだダーツは刺さっていません。 もし、外れると予測されたら悲しいですよね。まだダーツは刺さっていま

                                                              ダーツが命中するかどうか、刺さる直前に教えてくれる装置を作った - Qiita
                                                            • セキュリティエンジニアのための機械学習

                                                              情報セキュリティのエンジニアや研究者を読者対象とした機械学習の入門書。フィッシングサイト、マルウェア検出、侵入検知システムなどの情報セキュリティ全般の課題に対して、機械学習を適用することでどのようなことが可能になるのか? 本書ではサイバーセキュリティ対策でとても重要なこれらの知識を実装レベルで身につけることができます。また、どうすれば機械学習による検出を回避できるか、という点についても同時に解説します。サンプルコードはPython 3対応。Google Colaboratory上で実際に手を動かしながら学ぶことができます。 訳者まえがき まえがき 1章 情報セキュリティエンジニアのための機械学習入門 1.1 なぜ情報セキュリティエンジニアに機械学習の知識が必要なのか 1.2 本書のコードサンプルの実行環境 1.2.1 Google Colaboratory入門 1.2.2 GPU/TPUラ

                                                                セキュリティエンジニアのための機械学習
                                                              • 機械学習の実装とアルゴリズムをバランス良く学べる書籍を執筆しました - Qiita

                                                                scikit-learnライブラリを用いて、機械学習の実装とアルゴリズムをバランス良く学んでいただく書籍を執筆しました。 AIエンジニアを目指す人のための機械学習入門 実装しながらアルゴリズムの流れを学ぶ(電通国際情報サービス 清水琢也、小川雄太郎 、技術評論社) https://www.amazon.co.jp/dp/4297112094/ 既に発売開始しています。 機械学習の ・各種アルゴリズムの実装 ・それぞれのアルゴリズムの動作の仕組み これらを学んでみたい方に向けて執筆いたしました。 ご活用いただければ幸いです。 昨年書いた書籍 つくりながら学ぶ! PyTorchによる発展ディープラーニング(小川雄太郎、マイナビ出版) の、機械学習版のような位置付けです。 本記事では、 ・本書を書いたモチベーション ・本書の概要 ・本書の目次 を紹介いたします。 本書を書いたモチベーション 本書

                                                                  機械学習の実装とアルゴリズムをバランス良く学べる書籍を執筆しました - Qiita
                                                                • 『Pythonと実データで遊んで学ぶ データ分析講座』という書籍を執筆しました - Np-Urのデータ分析教室

                                                                  久しぶりの記事更新です…。 というのも理由がありまして。 この度、『Pythonと実データで遊んで学ぶ データ分析講座』という書籍を発売することになりました!! Pythonと実データで遊んで学ぶ データ分析講座 作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る 発売は、明後日です!(ギリギリの宣伝) 理論と実践、双方をバランスよく解説した一冊です。 これからデータ分析・機械学習といった分野を勉強したい方に、ピッタリの本に仕上がりました。 ぜひ、お盆で実家に帰る前に、購入してくださいませ。(実本でもKindleでも!) ということで、今回は、書籍の紹介をさせていただきます。 本書のターゲット本書は、主に これから機械学習の勉強を始めたい人 「AI」や「人工知能」というワードはよく聞

                                                                    『Pythonと実データで遊んで学ぶ データ分析講座』という書籍を執筆しました - Np-Urのデータ分析教室
                                                                  • 「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見

                                                                    はじめに 機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。 特徴量 Tips 1: 欠損値の扱い データにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何

                                                                      「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見
                                                                    • 【書評】「仕事ではじめる機械学習」を読んで、機械学習プロジェクトの大変さを知った夏 | DevelopersIO

                                                                      どうも。DI部@大阪オフィスの玉井です。 仕事ではじめる機械学習という本を読んだので、久しぶりに書籍エントリを投下します。この本はとってもとってもとってもとってもとってもとっても大スキよ ダーリン I like you. ダーリン素晴らしいので、ぜひこの気持ちをみなさんに伝えたいと思いました。 この本を読もうと思った理由 今後、機械学習を扱う製品やサービスが増えてくるのではないか、と思ったから 現在、私は製品サポートエンジニアとして、データ分析に関係する製品やサービス(Tableauとか)のサポートや導入を行っています。機械学習は触れたことは一切ありません。また(少なくとも現時点では)機械学習エンジニアに転向する予定もありません。 ところで、データ分析関係の製品やサービスっていうのは、それはもうすごい勢いで色々なものがリリースされています。弊社ではTableauやAlteryxといった製品

                                                                        【書評】「仕事ではじめる機械学習」を読んで、機械学習プロジェクトの大変さを知った夏 | DevelopersIO
                                                                      • プログラミング初心者がKaggle Expertになるまでの10ヵ月間を振り返る - Qiita

                                                                        Kaggle Expertになったので、イキってポエムを書こうと思いました。 AIに興味あるけどプログラミングすらできないんだよねという人向けの参考になれば幸いです。 1. 初期スペック (2019年2月) 機械工学系修士卒。よくいるメカニカルエンジニア 線形代数も統計も正直そんなに好きじゃない。力学の方が得意。 AI?あれでしょ。将棋超強いやつでしょ? パイソン?スト2のボクサーみたいなやつ? 2. 現在のスペック (2019年12月) Kaggle Expert (微妙?) 機械学習コンペでそれなりの成績 (Kaggle Kuzushiji Recognition 7th,Signate tellus 3rd 5th) 機械学習:なんとなくコーディングできる。 深層学習:なんとなくコーディングできる。 関連論文読める。簡単なものは実装できる。 業務適用も見えてきた 3. 機械学習を学ん

                                                                          プログラミング初心者がKaggle Expertになるまでの10ヵ月間を振り返る - Qiita
                                                                        • 8行のデータで理解する階層ベイズ - Qiita

                                                                          学習効果を統計的に評価したい! こんにちは グロービスではさまざまな教育事業を展開していますが、多くの人に学習を継続してもらうためには、研修をしたりコンテンツを視聴してもらったりするだけでなく、その学習効果を測定してユーザーにフィードバックすることが重要です。このとき、だれが見ても明らかな効果が出れば良いのですが、受講前後の成績変化のばらつきが大きかったりデータが少なかったりして、必ずしも分かりやすい結果が得られるとは限りません。そういった場合にデータを丁寧に紐解いて、どの程度効果があったのかを明らかにするのも分析の仕事のひとつです。 今回は階層ベイズモデルという統計モデルを使って、高校における学力コーチングの成果についてのデータを分析します。階層ベイズはやや高度な統計モデルというイメージがありますが、この記事ではたった8行のデータを例にしてその概要を説明してみたいと思います。 想定読者

                                                                            8行のデータで理解する階層ベイズ - Qiita
                                                                          • 機械学習の歴史 - AI.doll

                                                                            WikipediaのTimeline of machine learningというページに機械学習の歴史がまとめられた表があったので、あとから見返しやすいように全て日本語にしてみた。 日本語訳はガバガバかもしれないので心配な人は元ページを見てね。 ムムッってとこがあったらコメントで教えてほしい 年表 1763 ベイズの定理のベース トマス・ベイズ(Thomas Bayes)の著書, "An Essay towards solving a Problem in Doctorine of Chances"がベイズが死んだ2年後, 彼の友人により修正・編集され出版された. 1805 最小二乗 アドリアン=マリ・ルジャンドル(Adrien-Marie Legendre)が最小二乗(méthode des moindres carrés)について記述. 1812 ベイズの定理 ピエール=シモン・ラプ

                                                                              機械学習の歴史 - AI.doll
                                                                            • 傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常

                                                                              0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに 理論編に引き続き、実装を行なっていきます。 pira-nino.hatenablog.com 実装はpythonとRの両方で行いました。 作業用のコードは以下のgithu

                                                                                傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常
                                                                              • 【GEE】ランダムフォレストで土地被覆分類を行う【衛星データ解析】 - LabCode

                                                                                土地被覆分類とは? 衛星画像や航空写真などのリモートセンシングデータを分析し、地表のさまざまなカバータイプ(例えば、森林、農地、水域、都市地域など)を識別するプロセスです。土地被覆分類は地球環境のモニタリング、土地利用計画、生態系の管理、気候変動の研究など、多くの応用分野で利用されます。 以前の記事で利用した環境省生物多様性センターの植生図をはじめ、国土地理院の地理院地図、産総研のシームレス地質図などが作成され公開されています。 GEEには土地被覆分類を行うためのオブジェクトとしてee.Classifierというものが用意されています。これを利用することで機械学習を利用した土地被覆分類を行うことができます。 ee.Classifierが対応している主要な機械学習モデルは以下の通りです。 決定木(Decision Tree):条件分岐によってグループに分けられる木の構造をしたものです。回帰に

                                                                                  【GEE】ランダムフォレストで土地被覆分類を行う【衛星データ解析】 - LabCode
                                                                                • 統計学・機械学習を自分なりに概観してみた - Qiita

                                                                                  *この記事は統計学や機械学習を専門としていない学生が書いた主観的なまとめ記事です。間違いが含まれている可能性があります。 統計学・機械学習を学んでいると、たくさんの手法や考えが出てきてよくわからなくなります。 特に自分が何かに取り組んでいるときには、今やっている手法が全体から見てどういうものなのか、より良い手法が無いのかが気になってしまいます。 まるで地図を持たず森の中を彷徨っているような感覚です。 そこで、統計学・機械学習で使われる概念や手法を自分なりにまとめて頭を整理したいと思います。 以下のような図になりました。 以下にそれぞれを説明します。 数理科学 統計学・機械学習のベースとなる学問です。 主に解析学、代数学、幾何学からなります。 微分積分学と線形代数学が基本になってるのは言うまでもないと思います。 その他に個人的に関わりが深いと思う分野を3つ挙げます。 確率論 大数の法則(中心

                                                                                    統計学・機械学習を自分なりに概観してみた - Qiita