並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 246件

新着順 人気順

scikit-learn データセットの検索結果1 - 40 件 / 246件

  • 「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary

    データサイエンティストを生業にする手段と実態について述べる。 途中、具体例・境界値の例として私個人の話もするが、なるべく一般性のある話をする。 この記事で言いたいことは具体的には4つだ。 プログラミングスクールをディスるなら代わりの入門方法を提供しようよ。 もう「未経験文系から3ヶ月でデータサイエンティストで一発逆転物語」を止めろ。*1 おじさんは人生逆転したいなら真面目にやれ。 若者はワンチャンじゃなくて、ちゃんと化け物になれよ。 この記事についてはパブリック・ドメインとして転載・改変・リンク記載を自由にしてよいです。 (続き書いた) a. 入門は辛いが… b. 思考停止でプログラミングスクールに通うな。 なろう系・始めてみよう系資料一覧 (最速・最短ルート用) まずは動かしてみよう。強くてニューゲームが体験出来るぞ! 入門以前の本 一般向け業界本 (AI業界と展望がわかる本) 技術者入

      「未経験文系から3ヶ月でデータサイエンティストになって一発逆転」はここで終わり (2020/7/31 更新) - todo-mentor’s diary
    • 働きながらアメリカの大学院でCS修士号を取った - k0kubun's blog

      4年前に会社の福利厚生を使ってスタンフォードの授業を取ってみたら面白く、 働きながらでも続けられそうだなという実感を得たので、 2年後、受験を経てジョージア工科大学にリモートで通い始めた。 そして先日、ジョージア工科大学からコンピュータサイエンス修士号をいただくことができた。 画像の学位記は卒業式イベント用の非公式のもので、1~2か月すると Masterとちゃんと書いてある本物が来るらしい *1 。 After 1 year and 9 months, I graduated from Georgia Tech and got a master's degree in computer science. It was intense to be a student while working full-time, but I learned a lot. pic.twitter.com/J

        働きながらアメリカの大学院でCS修士号を取った - k0kubun's blog
      • JP Contents Hub

        AWS 日本語ハンズオン Amazon Web Services(AWS) の 日本語ハンズオンやワークショップを、カテゴリごとにまとめています。 右側の目次や、ヘッダー部分の検索ボックスから、各コンテンツにたどり着けます。 また、Ctrl + F や command + F を使ったページ内検索もご活用いただけます。 料金について ハンズオンで作成した AWS リソースは通常の料金が発生します。作成したリソースの削除を忘れずにお願いします。 もし忘れてしまうと、想定外の料金が発生する可能性があります。 画面の差異について ハンズオンで紹介されている手順と、実際の操作方法に差異がある場合があります。 AWS は随時アップデートされており、タイミングによってはハンズオンコンテンツが追いついていない事もあります。 差異がある場合、AWS Document などを活用しながら進めて頂けますと幸い

          JP Contents Hub
        • 【2023年版】機械学習の日本語無料学習教材まとめ - Qiita

          言語&開発基礎編 PythonやSQLなどの言語と開発環境に関連することをまとめました。 機械学習に関する教材はこの次のセクションにまとめてあります。 学習環境 インストール及び使い方チュートリアルのサイトと、ある程度使い慣れた後に役立つtips集を各エディタでまとめました。 Google Colaboratory Python初学者にとって最もわかりやすいPython実行環境です。プログラミングは初めて!という方はまずこのGoogle Colaboratory(通称: Colab)から始めてみて、使い方がある程度わかったら、そのまま次のセクションのPython編に移りましょう。 Pythonプログラミング入門 難易度: ★☆☆ 東京大学の公開しているPython講座ですが、冒頭でColabの使い方を解説しています。使ったことのない方はこちらから! Google Colabの知っておくべき

            【2023年版】機械学習の日本語無料学習教材まとめ - Qiita
          • 世界一わかりやすい機械学習プログラミングチュートリアル - Qiita

            はじめに この記事はNuco Advent Calendar 2022の5日目の記事です 対象読者 Pythonが注目されている理由のひとつは機械学習プロジェクトの主要な開発言語であるからといってもよいでしょう。多くの企業の業務システムのAIの開発言語はPythonです。そんなPythonの学習を始めてある程度文法の理解が進んできて、機械学習に触れてみたい方を対象にしています。 Pythonの基本文法を理解している 機械学習を始めてみたい チュートリアル概要 Pythonは長年機械学習で使用されているので、ライブラリも豊富にあります。本記事では機械学習用ライブラリのscikit-learn(サイキット・ラーン)を使用して教師あり学習を行い住宅価格を予測してみます。 何ができるようになるか 機械学習で使われる基本的な用語を理解し、学習の全体像をつかめるようになります。 機械学習の目的 機械学

              世界一わかりやすい機械学習プログラミングチュートリアル - Qiita
            • 画像の機械学習が劣化する理由 - Qiita

              前書き 注意:ここに書いていることは2020年代としては、古すぎる見解になっている。 近年の自己教師あり学習の大幅な進展で、ここで述べているようなアプローチは大幅に古めかしいものになっている。 ・自己教師あり学習の進展は、画像認識タスクに対する共通のbackbone を作り出しており、後段で個々の画像認識タスクに対するfine-tuningをするアプローチに変わってきている。 ・そのため、ラベル付きの限られたデータで特徴量の抽出をしていたのが、自己教師あり学習に基づく特徴量の抽出になっている。 ・各人、自己教師あり学習について調べることをお勧めする。 主旨 単純に学習データを追加するだけでは学習が改善しないことがある。そのような場合へのヒントを著者の限られた経験の中から記述する。 はじめに 画像認識の機械学習を改善するためにはデータを追加すればよい。 そう思っている人が大半だろう。 ただ、

                画像の機械学習が劣化する理由 - Qiita
              • 機械学習エンジニアに爆速でなるための教材集 - Qiita

                0. はじめに 昨今のAI、DXブームの影響で、機械学習、深層学習(ディープラーニング, Deep Learning) への注目は増すばかりですが、初学者の方にとって機械学習を学ぶハードルは依然高い状態かと思います。 機械学習、特にディープラーニングを習得するには学ぶべきことが多く、また分野によっては難易度が高いということもあり、学んでいる途中で挫折してしまうという人も多いという印象があります。 そこで本記事では、これから機械学習を学びたい方が自学自習する際の助けになるようにと、有用な自習コンテンツをまとめました。 本記事では、機械学習エンジニアとして実務に参画できるレベルを目指して、コンテンツを収集しました。よって機械学習の理論やライブラリに加え、社会実装する上で付随して必要となるソフトウェアエンジニアリングのスキルも含めています。 コンテンツについては、適宜追記していく予定です。 対象

                  機械学習エンジニアに爆速でなるための教材集 - Qiita
                • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

                  はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

                    次世代データ基盤:データレイクハウスを Google Cloud で実現する
                  • Open Interpreter - Qiita

                    text = """ SeabornのTitanicデータセットを使いLightGBM,XGBoost,CatBoostおよび3つのモデルのアンサンブルした場合で どれが最も精度が良いか検証してください.検証する際は4foldのクロスバリデーションの結果の平均値としてください. 全て日本語で対応してください. """ # return_massagesは出力結果のデータを変数として保持するため引数 # 出力結果はmassagesにも保存される messages = interpreter.chat(text, return_messages=True) 了解しました。以下の手順で進めていきます。 1 必要なライブラリをインストールします。これには、seaborn(データセットの取得)、pandas(データの操作)、numpy cikit-learn(クロスバリデーションと精度評価)、lig

                      Open Interpreter - Qiita
                    • 脳みそが固くなったおじさんSEが機械学習を勉強してみた - Qiita

                      【はじめに】 本記事は 「機械学習をどう学んだか by 日経 xTECH ビジネスAI② Advent Calendar 2019」 の19日目になります。 おじさんSEの私がどうやって機械学習を勉強したかを記します。 きっかけは当時抱えていた分類課題において、「機械学習が使えるんじゃね?」というところから始まりました。 闇雲にやっていたので正直記憶は曖昧です。 経歴 プログラム歴は30年近くあります。 小学生の時に覚えたMS BASICから始まり、Z80アセンブラ、MC68000アセンブラ、FORTRAN、C(UNIX)、C++(Mac)、VB、Java(Android)、VB.NET、C#と触ってきました。 いろいろな言語に触れてきましたが、どれも極めるほどガッツリやっていたわけではありません。 機械学習に関しては20年以上前、いわゆる第二次AIブームの終わり頃に卒論のテーマでニューラ

                        脳みそが固くなったおじさんSEが機械学習を勉強してみた - Qiita
                      • 無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita

                        こんにちはkamikawaです 今回は無料で利用できる機械学習、データサイエンスに関するサイトや書籍をまとめました 私自身も機械学習プロジェクトに関わった経験があるのですが、ここに載せたサイトや資料を勉強に使っていました 機械学習エンジニアを目指す人必見です 入門者レベル〜応用・発展レベルまで幅広く載せていますレベルは個人の見解です。(あくまでも参考程度に) 日本語のものと英語のものを紹介します 海外の大学の講義もあるので英語の勉強にも使えます 海外でのキャリアを考えている方も必見です 対象読者 機械学習を学びたいけどお金をかけたくない人 独学で機械学習を身につけたい人 機械学習エンジニアになりたい人 発展的な機械学習を学びたい人 日本語 Python 三重大学奥村教授のサイト 機械学習、様々な分析、スクレイピング、データ可視化、地図データ、CV、統計など幅広い分野を扱っている R編もある

                          無料、独学で機械学習エンジニアになる!~機械学習が学べる無料サイト、書籍~ - Qiita
                        • 【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita

                          AI Academy Bootcamp 6ヶ月35,000円にてチャットで質問し放題の環境で、機械学習やデータ分析が学べるサービスを提供しております。 数十名在籍しているデータサイエンティストや機械学習エンジニアに質問し放題の環境でデータ分析、統計、機械学習、SQL等が学べます。AI人材に必要なスキルを効率よく体系的に身に付けたい方は是非ご検討ください! https://aiacademy.jp/bootcamp この記事の対象者 ・将来Pythonでデータ解析をしたいと考えているが、何から手をつけたら良いか知りたい方 ・将来、人工知能に関連した業務に携わりたいと検討中の初学者の方 ・未経験者からAIエンジニアになりたく、そのためにどのような知識が必要か知りたい方 ・AIプログラミングスクールや専門学校に進学しようか考えているが、独学で勉強できる方法を知りたいという方 対象ではない方 ・既

                            【2020年版・初心者向け】独学でAIエンジニアになりたい人向けのオススメの勉強方法 - Qiita
                          • Practical Data Science with R and Python: 実践的データサイエンス

                            実践的データサイエンス はじめに データ分析のためにコンピュータを利用する際、RおよびPython言語のいずれかを使うことが多いと思います(Julia言語は高レベル・高パフォーマンスな技術計算のための言語で今後期待が膨らみます)。これらの2つの言語では、データ操作や可視化、データ分析、モデリングに使われるライブラリが豊富にあり、 どれを使うのが良いのか迷うような状況が続いていました。しかしその状態は落ち着きを見せ、成熟期を迎えつつあります。 R言語ではパイプ演算子の登場によりデータフレームに対する操作に大きな変化が生じ、tidyverseによるデータ読み込みからデータ整形、可視化までが可能になりました。またtidyverseのような、機械や人間の双方が扱いやすいパッケージが増えてきました。特にR言語の強力な一面でもあったデータ分析の操作はtidymodelsに代表されるパッケージがユーザの

                            • 機械学習アプリケーションにおけるテストについて - Re:ゼロから始めるML生活

                              機械学習系の話題が多い昨今ですが、実際触ってみると期待した精度・結果が出ないなんてことはよくあることではないでしょうか。 機械学習特有の性質として、データ自体がモデルを変化させ、結果として業務に影響を与えたりします。 仮に、機械学習屋さんが精度が出るモデルを構築したと言っても、それを導入するときに、システム全体での品質の維持に苦労したりします。 ということで、不確実性の大きい機械学習系開発についての、設計・テスト戦略でどうやってリスクを低減していけるかが一つカギになってくると思い、方法論について勉強しましたので、そのメモです。 非常に参考にしたのはこちら。 arxiv.org テストそのもののテクニックなどは、一般的なテスト駆動開発に関する書籍を合わせてをご参考ください。 テスト駆動開発 作者:Kent Beck発売日: 2017/10/14メディア: 単行本(ソフトカバー) テスト駆動P

                                機械学習アプリケーションにおけるテストについて - Re:ゼロから始めるML生活
                              • Pythonによるファイナンス(第2版)を読んだ感想 - 虎の穴開発室ブログ

                                こんにちは!虎の穴ラボのNSSです。 虎の穴ラボではオライリー・ジャパン社の定期購読サービスを利用しており、 毎月新刊をいち早く読めるようになっています。 今回は12/24に刊行された「Pythonによるファイナンス(第2版)」を読んだ感想を共有したいと思います。 www.oreilly.co.jp 読もうと思ったきっかけ 数年前から少しだけ投資をしていたので、タイトルから興味を惹かれました。 Pythonを使って自分の投資ポートフォリオを評価したり、自動取引ができたら楽しそうだと思いました。 目次 目次 日本語版まえがき まえがき 第1部  Pythonとファイナンス 1章 なぜファイナンスにPythonを使うのか 1.1 プログラミング言語Python 1.1.1 Pythonの大まかな歴史 1.1.2 Pythonエコシステム 1.1.3 Pythonのユーザ層 1.1.4 科学スタ

                                  Pythonによるファイナンス(第2版)を読んだ感想 - 虎の穴開発室ブログ
                                • Rustで扱える機械学習関連のクレート2021 - Stimulator

                                  - はじめに - 本記事では、Rustで扱える機械学習関連クレートをまとめる。 普段Pythonで機械学習プロジェクトを遂行する人がRustに移行する事を想定して書くメモ書きになるが、もしかすると長らくRustでMLをやっていた人と視点の違いがあるかもしれない。 追記:2021/02/24 repositoryにしました。こちらを随時更新します github.com 追記;2021/07/26 GitHub Pagesでウェブサイトにしました vaaaaanquish.github.io - はじめに - - 全体感 - - 機械学習足回り関連のクレート - Jupyter Notebook Numpy/Scipy Pandas 画像処理 形態素解析/tokenize - scikit-learn的なやつ - 各ライブラリと特徴比較 - Gradient Boosting - XGBoos

                                    Rustで扱える機械学習関連のクレート2021 - Stimulator
                                  • PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧

                                    PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧:AI・機械学習のデータセット辞典 機械学習やディープラーニング用の主要ライブラリが提供する「画像/音声/テキストなどのデータセット」の名前とリンクを表にまとめ、典型的な使い方を簡単に紹介する。 連載目次 本連載「AI・機械学習のデータセット辞典」では、ここまで主に、scikit-learnやKeras/TensorFlow(tf.keras)、TensorFlow Datasets、PyTorchといった主要なPythonライブラリに共通的に含まれる代表的なデータセットを紹介し、各ライブラリでの典型的な実装コード例を示してきた。しかし、これらの全ライブラリに共通的に含まれているデータセットはまれで非常に少ない。よってこれからは、個々のライブラリに1つしか含まれていないようなこまごまと

                                      PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧
                                    • Pythonではじめる教師なし学習

                                      教師なし学習はラベル付けされていないデータから学習する機械学習の一種です。現在の機械学習では大量のラベル付きのデータを用いる教師あり学習が主流ですが、ラベルを付けるには膨大なコストがかかります。現実世界に機械学習を適用していくためには、ラベル付けを必要としない教師なし学習の重要性が増してくると考えられます。本書は実践的な視点から、データにある隠れたパターンを特定し、異常検出や特徴量抽出・選択を行う方法を紹介します。ラベルなしデータを有効に利用することで、機械学習の可能性を各段に広げる教師なし学習の本質に迫ります。さらに、変分オートエンコーダ(VAE)や敵対的生成ネットワーク(GAN)、制限付きボルツマンマシン(RBM)などの生成モデルも紹介します。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書

                                        Pythonではじめる教師なし学習
                                      • 本物のウェブアクセスログを使用した、機械学習による異常検知(全データ/ソースコード公開)

                                        おまたせしました この度、ついにこの記事を完成させることができました。これは私が数年前からずっと書きたいと思っていた、ウェブのアクセスログに対する、機械学習を使った異常検知の実例です。私は事あるごとに(※1)「情報セキュリティ分野でもデータサイエンスの技術は非常に重要だ」と繰り返していますが、この記事の内容はまさにその1つの証となると思います。この記事で示される内容を見れば、「うわ、機械学習、マジでヤバイい(語彙力)んだな...」となるでしょう。以下に心当たりのあるセキュリティエンジニアはぜひ読んで、そして実践してみてください。 機械学習に興味はあるものの、どこから手を付ければよいのかイメージがわかない 本当にAIやデータサイエンス、機械学習がセキュリティの分野で役に立つのか、確信がもてない データサイエンスや機械学習は難しそうだと思っている ログ解析において、grepや単純な統計処理より

                                          本物のウェブアクセスログを使用した、機械学習による異常検知(全データ/ソースコード公開)
                                        • Pythonによるファイナンス 第2版

                                          さまざまな分野で威力を発揮するPythonは、ファイナンスの分野でも重要なテクノロジーとして急成長を遂げています。本書は、Pythonを使った金融工学の初歩的な基本事項からアルゴリズム取引やデリバティブ分析までカバーし、必要なプログラミング、機械学習や深層学習を利用したデータ分析、統計などについて、数理と実用面から詳しく解説します。「データ駆動型アプローチ」と「AIファーストファイナンス」を軸に、これからのファイナンスに必要な戦略と実践力を体得できることを目的とします。 目次 日本語版まえがき まえがき 第1部  Pythonとファイナンス 1章 なぜファイナンスにPythonを使うのか 1.1 プログラミング言語Python 1.1.1 Pythonの大まかな歴史 1.1.2 Pythonエコシステム 1.1.3 Pythonのユーザ層 1.1.4 科学スタック 1.2 ファイナンスにお

                                            Pythonによるファイナンス 第2版
                                          • 「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見

                                            はじめに 機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。 特徴量 Tips 1: 欠損値の扱い データにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何

                                              「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見
                                            • 【書評】「仕事ではじめる機械学習」を読んで、機械学習プロジェクトの大変さを知った夏 | DevelopersIO

                                              どうも。DI部@大阪オフィスの玉井です。 仕事ではじめる機械学習という本を読んだので、久しぶりに書籍エントリを投下します。この本はとってもとってもとってもとってもとってもとっても大スキよ ダーリン I like you. ダーリン素晴らしいので、ぜひこの気持ちをみなさんに伝えたいと思いました。 この本を読もうと思った理由 今後、機械学習を扱う製品やサービスが増えてくるのではないか、と思ったから 現在、私は製品サポートエンジニアとして、データ分析に関係する製品やサービス(Tableauとか)のサポートや導入を行っています。機械学習は触れたことは一切ありません。また(少なくとも現時点では)機械学習エンジニアに転向する予定もありません。 ところで、データ分析関係の製品やサービスっていうのは、それはもうすごい勢いで色々なものがリリースされています。弊社ではTableauやAlteryxといった製品

                                                【書評】「仕事ではじめる機械学習」を読んで、機械学習プロジェクトの大変さを知った夏 | DevelopersIO
                                              • 深層学習VS決定木:テーブルデータ分析の未来|PKSHA Delta

                                                深層学習の技術が著しく進歩した結果、コンピュータビジョンや自然言語処理、音声信号処理などの分野では深層学習モデルの性能が古典的な手法のを大きく上回っており、すでにスタンダードなアプローチになっています。 しかし、テーブルデータを扱うタスクにおいては、深層学習の有効性は明らかになっていません。本記事ではテーブルデータにおける従来手法と深層学習の比較論文のご紹介をしていきます。 背景近年、テーブルデータを扱う深層学習モデルも登場し、一部の論文では決定木ベースのモデルと同等かそれ以上の性能を示しています。しかし、私が実務で試す中では決定木ベースのモデルの方が性能が高く、学習と推論が速く運用コストでも優れているため、深層学習モデル採用には至っていません。 より一般的なテーブルデータのタスクにおける、決定木ベースモデルと深層学習モデルとの性能比較の文献を調べたところ、NeurIPS 2022で発表さ

                                                  深層学習VS決定木:テーブルデータ分析の未来|PKSHA Delta
                                                • 傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常

                                                  0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに 理論編に引き続き、実装を行なっていきます。 pira-nino.hatenablog.com 実装はpythonとRの両方で行いました。 作業用のコードは以下のgithu

                                                    傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常
                                                  • Pythonのスクリプトからウェブアプリを簡単に作れるStreamlitをさわってみた | DevelopersIO

                                                    どうも、DA 事業本部の大澤です。 The fastest way to build custom ML toolsと謳っているStreamlit をさわってみました。HTMLやJS、CSSをいじることなく、Pythonのスクリプトからウェブアプリが作れて便利さに感動しました! streamlit/streamlit: Streamlit — The fastest way to build custom ML tools 今回はStreamlitに含まれるサンプルアプリを動かした後に、Pandasのデータフレームを使った簡単なウェブアプリを作ってみたので、その内容を紹介します。 やってみる インストール Streamlit は pip でインストールすることで使えます。 pip install streamlit サンプルを動かす デフォルトでサンプルアプリケーションが用意されているので

                                                      Pythonのスクリプトからウェブアプリを簡単に作れるStreamlitをさわってみた | DevelopersIO
                                                    • 【理論から実践まで】動かしながら学ぶ!ゼロからわかる再帰的ニューラルネットワーク(RNN) - LABOT 機械学習ブログ

                                                      この記事では再帰的ニューラルネットワーク (RNN) について解説をします。RNN の理論的な説明から入り、Keras を用いて実際に RNN を動かしてみます。単純RNN (SimpleRNN), LSTM, 双方向RNN (bidirectional RNN), deep RNN を用いてモデリングをします。なおこの記事はGoogle Colaboratory で動かすことができ、実行しながら読むことをおすすめします。 ノートブックを開く 再帰的ニューラルネットワーク 再帰的ニューラルネットワーク(リカレントニューラルネットワーク、RNN))は系列データのモデルです。 各時刻 $t_1, t_2, \cdots,t_n$で$\vec{x_1}, \cdots, \vec{x_n}$が入力されたときベクトル$\vec{y_1}, \cdots, \vec{y_n}$ を予測するモデルです

                                                      • Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER

                                                        一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。 そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。 もし、未来のデータがモデルの学習データに混入すると、本来は利用できないデータにもとづいた楽観的な予測が得られてしまう。 今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備 あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le

                                                          Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER
                                                        • 数学に強いエンジニアむけの機械学習勉強法

                                                          今年の3月から機械学習の勉強を始めて9ヶ月たったのでその振り返りと今後機械学習に入門する人の参考になればという記事です。 巷の記事だと「数学何もわからない人向けの機械学習~」みたいなものが多いので「数学チョットワカル人向け」に勉強方法をまとめてみようと思いました。 前提として筆者は大学で数学を専攻しており、社会人になってからはプログラミングを生業としております。 # 前提知識のおさらいいきなり機械学習入門~のような書籍に入る前に、基礎知識としてこの辺を抑えておくと良いと思います。 ## 線形代数:大学1年レベル機械学習の説明はほとんど行列の計算として表現されますので大前提として。手を動かして計算問題を解くのもおすすめです。 プログラミングのための線形代数 https://www.amazon.co.jp/dp/4274065782 ## 基礎統計(頻度主義):大学1年レベル正規分布や指数分

                                                          • 機械学習における解釈性について | メルカリエンジニアリング

                                                            こんにちは。Merpay Advent Calendar 2019 の24日目は、メルペイ Machine Learning チームの @yuhi が機械学習における解釈性についてお送りします。 目次 機械学習における解釈性とは なぜ解釈性が必要なのか 1. サービスを提供する事業者としての説明責任 2. 推論結果に対する社内外の関係者の理解 3. モデルのデバッグ、精度改善 どのようなアプローチがあるのか SHAPについて サマリ 基本的なアイディア 問題設定 説明可能モデルに対して満たしてほしい性質 説明可能モデルを求める SHAPの実装について 最後に References 機械学習における解釈性とは 深層学習をはじめとする機械学習分野の発展に伴って、これまでにないユニークなサービスが開発され、また多くの業界において業務が効率化、高度化されつつあります。メルペイでも機械学習を用いて、

                                                              機械学習における解釈性について | メルカリエンジニアリング
                                                            • MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog

                                                              こんにちは!nakamura(@naka957)です。今回はMLflowをご紹介します。 読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。 今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。 本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。 では、早速始めていきます。 実験記録の重要性 MLflowとは MLflowのインストール データセット準備 機械学習モデルの用意 M

                                                                MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog
                                                              • RからPythonへのお引越しでわかること - Jupyterと世界の野球から理解する - Lean Baseball

                                                                サムネイルがまんま結論の一部です&タイトルでビビッと来たアナタ(+野球好き)が対象読者です. ちょっとやりたいことがあって, やりたいこと⚾のサンプルがたまたまRだった このあと自分で分析したりなにか作るんやったらPythonでやりたい せや!RからPythonに移植しちゃえば良いンゴ ってことで, 粛々とRからPythonに移植した時に気がついた事をサラッと書きたいと思います. 最初に断っておくと, RよりPythonが優秀(またはその逆)だから書き換える!って意味ではありません! どっちが優秀だの, 好みは何だのといった所は(必要と思った箇所を除き)触れないのでご了承ください.*1 というわけで, 変に力んだりマウントを取ること無く, ごゆるりとおくつろぎながら読んでもらえると幸いです. TL;DR 数式を意識しながら読んだり, 統計的にいい感じにしたい時はRの方がしっくりくる. 一方

                                                                  RからPythonへのお引越しでわかること - Jupyterと世界の野球から理解する - Lean Baseball
                                                                • 実践 AWSデータサイエンス

                                                                  AWSではデータサイエンス分野で利用できるさまざまなサービスが提供されています。本書では、それらのサービスを有効に使って、データの収集、分析、モデルの訓練、テスト、デプロイまでの一連のプロセスを行う方法を紹介します。対象とする事例は、ヘルスケアデータ、時系列データ、自然言語処理、画像分類、不正検出、需要予測、レコメンデーションシステムなど非常に多岐にわたります。本書の目的は、Amazon SageMakerをはじめとしたAWSの機械学習サービスの詳細を説明するだけでなく、AWSのサービスを組み合わせることで、データサイエンスとアプリケーション開発の統合を図り、開発を効率化することであり、データサイエンティスト、データアナリスト、データエンジニア、MLエンジニアはもちろん、アプリケーション開発者や管理職にとっても役に立つ一冊です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や

                                                                    実践 AWSデータサイエンス
                                                                  • SVMを使った類似 embeddings 検索 - kNN ではない類似検索の選択肢 - A Day in the Life

                                                                    LangChain v0.0.141 に SVM Retriever という実装が入った。これは embeddings(集合)から、単一 embedding と類似しているもの top-K を SVM を使って見つけるという実装で、えっどうやってるの?と追っかけてみたら、知らない知識で面白かったのでメモ記事に。 kNN vs SVM この実装の元となった、knn_vs_svm.ipynbというnotebookがあって、冒頭を機械翻訳すると以下となる。 よくあるワークフローは、あるデータを埋め込みに基づいてインデックス化し、新しいクエリの埋め込みがあれば、k-Nearest Neighbor検索で最も類似した例を検索することです。例えば、大規模な論文コレクションをその抄録に基づいて埋め込み、興味のある新しい論文を与えると、その論文に最も類似した論文を検索することが想像できます。 私の経験では

                                                                    • 機械学習モデルを組み込んだ Web アプリを Python 初心者が作ってみた - RAKUS Developers Blog | ラクス エンジニアブログ

                                                                      こんにちは。開発エンジニアの amdaba_sk(ペンネーム未定)です。 前回は「機械学習をコモディティ化する AutoML ツールの評価」、だいぶ間が空きましたが前々回は「機械学習のライブラリ・プラットフォームをいくつか試した所感まとめ」と、続けて機械学習をテーマとした記事を書きました。 これらの記事では機械学習モデルを作るまでのことしか言及していませんが、機械学習モデルは作ってそれで終わりのものでもありません。使ってなんぼのものなんです。かみせんプロジェクトとしての調査範囲からは外れますが、せっかくモデルを作ったならそれを使ったアプリも簡単なものでいいので作ってみたい。そう思うのは開発者として自然な感情ではないでしょうか。 というわけで今回は、「機械学習モデルを組み込んだ Web アプリを Python 初心者が作ってみた」という個人的な興味からやってみた系記事でございます。 なお後に

                                                                        機械学習モデルを組み込んだ Web アプリを Python 初心者が作ってみた - RAKUS Developers Blog | ラクス エンジニアブログ
                                                                      • 特徴量と目的変数の関係性を可視化する(sklearnを使ってpartial dependenceを可視化する) | DevelopersIO

                                                                        概要 当エントリは『機械学習 on AWS Advent Calendar 2019』の20日目のエントリです。 クラスメソッド 機械学習 on AWS Advent Calendar 2019 - Qiita クラスメソッド 機械学習 on AWS Advent Calendar 2019 | シリーズ | Developers.IO 先日、sklearnのversion「0.22」のリリースハイライトを見ていて「plot_partial_dependence」というAPIが気になり調べてみたので、結果をレポートします。 本エントリーの内容をざっくり言うと、「目的変数と特徴量の関係性」を可視化する際に便利なAPIである「plot_partial_dependence」が「sklearnの version0.22」でリリースされたのでその内容のレポートと、というものになります。 目的変数と

                                                                          特徴量と目的変数の関係性を可視化する(sklearnを使ってpartial dependenceを可視化する) | DevelopersIO
                                                                        • リッジ回帰とラッソ回帰の理論と実装を初めから丁寧に - Qiita

                                                                          はじめに 前回の記事で重回帰分析の導入をしてみたので、今回はその続きということで、2つ同時にやってみたいと思います。 ベクトルの微分公式については下記のブログが参考になります。 もしこの記事がお役に立てた時はQiitaのイイねボタンを押していただけると励みになります。 参考記事 「ベクトルで微分・行列で微分」公式まとめ 重回帰分析 リッジ回帰について考える際に、重回帰分析の理解はマストになるのでここでも見ていこうと思います。式変形については、前回の記事で詳しく導入したので少しだけ端折っていきます。 準備 説明変数$x_1, x_2, x_3, \cdots, x_m$を$\boldsymbol{x}$($x$のベクトル)とする 予測値を$\hat{y}$とする($\hat{y}$はスカラー) 回帰係数を$w_1, w_2, w_3, \cdots, w_m$を$\boldsymbol{w}

                                                                            リッジ回帰とラッソ回帰の理論と実装を初めから丁寧に - Qiita
                                                                          • LightGBMを超わかりやすく解説(理論+実装)【機械学習入門33】

                                                                            こんにちは,米国データサイエンティストのかめ(@usdatascientist)です. 機械学習入門講座第33回です.(講座全体の説明と目次はこちら) 追記) 機械学習超入門本番編ではLightGBMについてさらに詳しく解説をしています.勾配ブースティング決定木アルゴリズムのスクラッチ実装もするので,さらに理解を深めたい方は是非受講ください:) 前回の記事で決定木の勾配ブースティングアルゴリズムであるXGBoostを紹介しましたが,今回は同じ決定木の勾配ブースティングの別のアルゴリズムであるLightGBMについて解説します. LightGBMはXGBoostが発表されてから2~3年後に発表され,今やXGBoostよりも高速で高精度なアルゴリズムとして認識され,XGBoostに代わる最強のアルゴリズムの一つとなっています. XGBoostと同じ決定木の勾配ブースティングをベースにしているの

                                                                              LightGBMを超わかりやすく解説(理論+実装)【機械学習入門33】
                                                                            • PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ

                                                                              「JX通信社Advent Calendar 2019」10日目の記事です. 昨日は, @rychhrさんの「Pure WebSocketsをサポートしたAWS AppSyncでWebとiOS間のリアルタイムチャットを作ってみた(1)」でした. 改めまして, こんにちは. JX通信社でシニア・エンジニア&データ基盤エンジニアをしています, @shinyorke(しんよーく)と申します. JX通信社では, データ駆動での意思決定および施策実施をより円滑に進めるため, データ基盤の構築・運用を進めながらトライアル的に様々なFrameworkやツールの検証を行っています.*1 このエントリーでは, 私がシュッとPySparkで分散処理をする...前に, 手元で試したときの感想とその知見 のお話を残していきたいと思います. なお, 分散処理そのものの知見・ノウハウではなく, する前にPySparkに

                                                                                PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ
                                                                              • オノマトペ(擬音語)から環境音を合成するニューラルネットワーク(Onoma-to-Wave)をPyTorchで実装した - 備忘録

                                                                                はじめに 事前準備 ソースコード 実装の概要と動かし方 補助的に作成したモジュールの概要 おまけ:訓練済みモデルのリリース 環境音合成実験 音響イベントによる条件付けなし 音響イベントによる条件付けあり 実装の舞台裏とかTIPS おわりに 参考文献 はじめに 下記の雑誌論文が最近出版された。 Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori and Yoichi Yamashita, "Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words", APSIPA Transactions on Signal and Information Processing: Vol. 11: No.

                                                                                  オノマトペ(擬音語)から環境音を合成するニューラルネットワーク(Onoma-to-Wave)をPyTorchで実装した - 備忘録
                                                                                • 表形式データに対する深層学習ライブラリの開発と実験 - Preferred Networks Research & Development

                                                                                  本記事は、2021年度PFN夏季インターンシップで勤務した平川雅人さんと畠山智之さんによる寄稿です。 はじめに 2021年度PFN夏季インターン生の平川雅人と畠山智之です。 今回のインターンでは、表形式データに対して様々な深層学習モデルを試すことができるライブラリを共同で開発しました。開発したライブラリは https://github.com/pfnet-research/deep-table で公開しています。 背景 近年、深層学習は画像や自然言語、音声の分野で目覚ましい成功を収めてきました。しかし表形式データに対しては、深層学習はそのような成功を遂げることは少なく、いまだにXGBoostやLightGBMのような決定木ベースのモデルが主流となっています。 深層学習の有望な手法として、決定木のアンサンブルを模倣して勾配ベースの学習を可能にしたNODE [1] や、スパースなattenti

                                                                                    表形式データに対する深層学習ライブラリの開発と実験 - Preferred Networks Research & Development